Python爬虫抓取知乎所有用户信息

最新推荐文章于 2024-06-24 09:43:58 发布

小迪和夫人

最新推荐文章于 2024-06-24 09:43:58 发布

阅读量3.2k

点赞数 1

分类专栏： IT 编程学习文章标签： python python学习爬虫机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiawoxuexiqq30294961/article/details/82940992

版权

本文介绍了一个使用递归和Scrapy框架抓取知乎用户信息的爬虫项目，包括用户详细信息、粉丝和关注者数据。通过分析页面结构和AJAX请求，解析JSON数据，将数据存储在MongoDB中。还提到了自动翻页功能和如何伪装headers以避免被服务器检测。

摘要由CSDN通过智能技术生成

今天用递归写了个抓取知乎所有用户信息的爬虫，源代码放在了github上，有兴趣的同学可以上去下载一下看看，这里介绍一下代码逻辑以及分页分析，首先看网页，这里本人随便选了一个大V作为入口，然后点开他的关注列表，如图

我们都知道Python容易学，但是就是不知道如何去学，去哪里找资料，在这里呢，python学习交流qq群233539995，分享我精心准备的Python学习资料，0基础到进阶！希望你们在学习Python道路上少走弯路！加油！

注意，本人爬虫的全称都是处于非登录状态的。这里的粉丝列表以及关注者列表都是后台ajax请求得到的数据（没有听过ajax的童鞋别慌，ajax请求跟普通浏览器的请求没有区别，它主要就是在我们浏览网页时候偷偷给服务器发送的请求，就是为了节省流量以及减少请求数，不然每次看点新数据都全部刷新网页，服务器压力很大的，所以有了这玩意），然后我们找到粉丝列表以及关注者列表的URL，这个很简单，在chrome浏览器下面点击一下页数切换就可以找到，如图

找到关注者以及粉丝的URL就好办理，下面看一看这些数据，这里以粉丝的数据举例，如图，是一段json

最低0.47元/天解锁文章

小迪和夫人

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
5
评论
Python爬虫抓取知乎所有用户信息

今天用递归写了个抓取知乎所有用户信息的爬虫，源代码放在了github上，有兴趣的同学可以上去下载一下看看，这里介绍一下代码逻辑以及分页分析，首先看网页，这里本人随便选了一个大V作为入口，然后点开他的关注列表，如图我们都知道Python容易学，但是就是不知道如何去学，去哪里找资料，在这里呢，python学习交流qq群233539995，分享我精心准备的Python学习资料，0基础到进阶！希望你们...
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。