实战3、爬取微博数据-pyquery去除符号

1、寻找数据链接

寻找微博链接

  • 继续向下滑动,寻找数据变化规律,只有max_id参数发生了变化,判断这个是获取页数的意思。
    继续滑动

2、分析数据

点开预览发现有我们需要的数据,使用requests模块获取数据数据进行解析。

预览数据

  • 打印返回的response并转化为json字符串

打印数据

3、存储数据

info = {}

for item in items:
    info["发布日期"] = item["created_at"]
    info["发布者"] = item["user"]["screen_name"]
    info["简介"] = pq(item["text_raw"]).text()

    with open("./files/微博数据.txt", "a", encoding="utf-8") as f:
        f.write(str(info) + "\n")

相关代码地址:https://gitee.com/justinc666/crawler/tree/master/实战

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值