python爬虫--爬取股吧前十页【阅读】【评论】【标题】【作者】【更新时间】

本文介绍了一个优化后的Python爬虫程序,用于抓取股吧网站的前十页数据,包括阅读量、评论数、标题、作者及更新时间等关键信息。
摘要由CSDN通过智能技术生成

这是一个爬取股吧前十页数据的爬虫

import re, json
import requests


def write_to_json(infos):
    with open('movies.json', 'w', encoding='utf-8') as fp:
        json.dump(infos, fp)


# 解析页面内容
def parse_page(html_str):

    # 测试页面内容是否能拿到
    # print(html_str)
    # 正则筛选页面的原则:缩小匹配范围。
    ul_p = re.compile(r'<ul class="newlist" tracker-eventcode="gb_xgbsy_ lbqy_rmlbdj">(.*?)</ul>', re.S)
    ul_content = ul_p.search(html_str).group()
    cite_p = re.compile(r'<ul class="newlist" tracker-eventcode="gb_xgbsy_ lbqy_rmlbdj">(.*?)</ul>', re.S)
    cite_list = cite_p.findall(ul_content)

    '''
    阅读
    评论
    标题
    作者
    更新时间
    详情页

    '''

    for cite in cite_list:
        cite_q = re.compile(r'<li>(.*?)</li>', re.S)
        cite_list2 = cite_q.findall(cite)
        for cite2 in cite_list2:
            clk_p = re.compile(r'<cite>(.*?)</cite>', re.S)  ###阅读
            clk = clk_p.findall(cite2)
            #阅读数
            read_count = clk
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值