python爬虫--爬取股吧前十页【阅读】【评论】【标题】【作者】【更新时间】

这是一个爬取股吧前十页数据的爬虫

import re, json
import requests


def write_to_json(infos):
    with open('movies.json', 'w', encoding='utf-8') as fp:
        json.dump(infos, fp)


# 解析页面内容
def parse_page(html_str):

    # 测试页面内容是否能拿到
    # print(html_str)
    # 正则筛选页面的原则:缩小匹配范围。
    ul_p = re.compile(r'<ul class="newlist" tracker-eventcode="gb_xgbsy_ lbqy_rmlbdj">(.*?)</ul>', re.S)
    ul_content = ul_p.search(html_str).group()
    cite_p = re.compile(r'<ul class="newlist" tracker-eventcode="gb_xgbsy_ lbqy_rmlbdj">(.*?)</ul>', re.S)
    cite_list = cite_p.findall(ul_content)

    '''
    阅读
    评论
    标题
    作者
    更新时间
    详情页

    '''

    for cite in cite_list:
        cite_q = re.compile(r'<li>(.*?)</li>', re.S)
        cite_list2 = cite_q.findall(cite)
        for cite2 in cite_list2:
            clk_p = re.compile(r'<cite>(.*?)</cite>', re.S)  ###阅读
            clk = clk_p.findall(cite2)
            #阅读数
            read_count = clk
  • 4
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值