实战3、爬取微博数据-pyquery去除符号

Justinc.

已于 2024-09-26 22:00:15 修改

阅读量338

点赞数 7

分类专栏： # 爬虫实战文章标签： python 爬虫

于 2024-09-26 21:54:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sjc122333/article/details/142578734

版权

爬虫实战专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、寻找数据链接

寻找微博链接

继续向下滑动，寻找数据变化规律，只有max_id参数发生了变化，判断这个是获取页数的意思。

2、分析数据

点开预览发现有我们需要的数据，使用requests模块获取数据数据进行解析。

预览数据

打印返回的response并转化为json字符串

打印数据

3、存储数据

info = {}

for item in items:
    info["发布日期"] = item["created_at"]
    info["发布者"] = item["user"]["screen_name"]
    info["简介"] = pq(item["text_raw"]).text()

    with open("./files/微博数据.txt", "a", encoding="utf-8") as f:
        f.write(str(info) + "\n")

相关代码地址：https://gitee.com/justinc666/crawler/tree/master/实战

关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Justinc. CSDN认证博客专家 CSDN认证企业博客

码龄2年

29: 原创

9797: 周排名

4万+: 总排名

2万+: 访问

: 等级

680: 积分

255: 粉丝

387: 获赞

1: 评论

254: 收藏

私信

关注

热门文章

分类专栏

Python基础 3篇
网络爬虫 8篇
爬虫实战 4篇
web全栈开发 7篇
概念 2篇
Flutter 4篇
随笔 1篇

最新评论

数据解析-xpath
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
数据解析-xpath
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
python面向对象
CSDN-Ada助手: 恭喜你开始博客创作！面向对象是Python中非常重要的概念之一，你选择的主题很棒。在你的博客中，我建议你可以深入探讨一下面向对象编程的基本原则和概念，例如封装、继承和多态。这些内容将有助于读者更好地理解和应用面向对象编程。期待看到你未来更多精彩的博客！加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。