python爬虫--爬取股吧前十页【阅读】【评论】【标题】【作者】【更新时间】

最新推荐文章于 2024-08-09 08:38:02 发布

D_dalei

最新推荐文章于 2024-08-09 08:38:02 发布

阅读量2.5k

点赞数 4

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/d_wart/article/details/103624339

版权

本文介绍了一个优化后的Python爬虫程序，用于抓取股吧网站的前十页数据，包括阅读量、评论数、标题、作者及更新时间等关键信息。

摘要由CSDN通过智能技术生成

这是一个爬取股吧前十页数据的爬虫

import re, json
import requests


def write_to_json(infos):
    with open('movies.json', 'w', encoding='utf-8') as fp:
        json.dump(infos, fp)


# 解析页面内容
def parse_page(html_str):

    # 测试页面内容是否能拿到
    # print(html_str)
    # 正则筛选页面的原则：缩小匹配范围。
    ul_p = re.compile(r'<ul class="newlist" tracker-eventcode="gb_xgbsy_ lbqy_rmlbdj">(.*?)</ul>', re.S)
    ul_content = ul_p.search(html_str).group()
    cite_p = re.compile(r'<ul class="newlist" tracker-eventcode="gb_xgbsy_ lbqy_rmlbdj">(.*?)</ul>', re.S)
    cite_list = cite_p.findall(ul_content)

    '''
    阅读
    评论
    标题
    作者
    更新时间
    详情页

    '''

    for cite in cite_list:
        cite_q = re.compile(r'<li>(.*?)</li>', re.S)
        cite_list2 = cite_q.findall(cite)
        for cite2 in cite_list2:
            clk_p = re.compile(r'<cite>(.*?)</cite>', re.S)  ###阅读
            clk = clk_p.findall(cite2)
            #阅读数
            read_count = clk