Python爬虫抓取知乎所有用户信息

本文介绍了一个使用递归和Scrapy框架抓取知乎用户信息的爬虫项目,包括用户详细信息、粉丝和关注者数据。通过分析页面结构和AJAX请求,解析JSON数据,将数据存储在MongoDB中。还提到了自动翻页功能和如何伪装headers以避免被服务器检测。
摘要由CSDN通过智能技术生成

今天用递归写了个抓取知乎所有用户信息的爬虫,源代码放在了github上,有兴趣的同学可以上去下载一下看看,这里介绍一下代码逻辑以及分页分析,首先看网页,这里本人随便选了一个大V作为入口,然后点开他的关注列表,如图

我们都知道Python容易学,但是就是不知道如何去学,去哪里找资料,在这里呢,python学习交流qq群233539995,分享我精心准备的Python学习资料,0基础到进阶!希望你们在学习Python道路上少走弯路!加油!

注意,本人爬虫的全称都是处于非登录状态的。这里的粉丝列表以及关注者列表都是后台ajax请求得到的数据(没有听过ajax的童鞋别慌,ajax请求跟普通浏览器的请求没有区别,它主要就是在我们 浏览网页时候偷偷给服务器发送的请求,就是为了节省流量以及减少请求数,不然每次看点新数据都全部刷新网页,服务器压力很大的,所以有了这玩意),然后我们找到粉丝列表以及关注者列表的URL,这个很简单,在chrome浏览器下面点击一下页数切换就可以找到,如图

        找到关注者以及粉丝的URL就好办理,下面看一看这些数据,这里以粉丝的数据举例,如图,是一段json

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值