gitlab 崔庆才_静觅丨崔庆才的个人站点

最新推荐文章于 2022-05-22 20:23:50 发布

weixin_39555951

最新推荐文章于 2022-05-22 20:23:50 发布

阅读量81

点赞数

文章标签： gitlab 崔庆才

本文链接：https://blog.csdn.net/weixin_39555951/article/details/111545814

版权

本文介绍了如何使用Scrapy爬虫框架，从一个大V用户开始递归抓取知乎用户信息，包括个人信息、粉丝列表和关注列表。通过分析请求接口，获取用户详情和关注列表，利用MongoDB进行数据存储和去重。在爬取过程中，处理了请求头、OAuth token等问题，并通过Item Pipeline实现了数据去重存储。

摘要由CSDN通过智能技术生成

本节分享一下爬取知乎用户信息的Scrapy爬虫实战。

本节目标

本节要实现的内容有：

从一个大V用户开始，通过递归抓取粉丝列表和关注列表，实现知乎所有用户的详细信息的抓取。

将抓取到的结果存储到MongoDB，并进行去重操作。

思路分析

我们都知道每个人都有关注列表和粉丝列表，尤其对于大V来说，粉丝和关注尤其更多。如果我们从一个大V开始，首先可以获取他的个人信息，然后我们获取他的粉丝列表和关注列表，然后遍历列表中的每一个用户，进一步抓取每一个用户的信息还有他们各自的粉丝列表和关注列表，然后再进一步遍历获取到的列表中的每一个用户，进一步抓取他们的信息和关注粉丝列表，循环往复，不断递归，这样就可以做到一爬百，百爬万，万爬百万，通过社交关系自然形成了一个爬取网，这样就可以爬到所有的用户信息了。当然零粉丝零关注的用户就忽略他们吧～爬取的信息怎样来获得呢？不用担心，通过分析知乎的请求就可以得到相关接口，通过请求接口就可以拿到用户详细信息和粉丝、关注列表了。接下来我们开始实战爬取。

环境需求

Python3

本项目使用的Python版本是Python3，项目开始之前请确保你已经安装了Python3。

Scrapy

Scrapy是一个强大的爬虫框架，安装方式如下：

pip3 install scrapy

MongoDB

非关系型数据库，项目开始之前请先安装好MongoDB并启动服务。

PyMongo

Python的MongoDB连接库，安装方式如下：

pip3 install pymongo

创建项目

安装好以上环境之后，我们便可以开始我们的项目了。在项目开始之首先我们用命令行创建一个项目：

scrapy startproject zhihuuser

创建爬虫

接下来我们需要创建一个spider，同样利用命令行，不过这次命令行需要进入到项目里运行。

cd zhihuuser

scrapy genspider zhihu www.zhihu.com

禁止ROBOTSTXT_OBEY

接下来你需要打开settings.py文件，将ROBOTSTXT_OBEY修改为False。

ROBOTSTXT_OBEY = False

它默认为True，就是要遵守robots.txt 的规则，那么 robots.txt 是个什么东西呢？通俗来说， robots.txt 是遵循 Robot 协议的一个文件，它保存在网站的服务器中，它的作用是，告诉搜索引擎爬虫，本网站哪些目录下的网页不希望你进行爬取收录。在Scrapy启动后，会在第一时间访问网站的 robots.txt 文件，然后决定该网站的爬取范围。当然，我们并不是在做搜索引擎，而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以，某些时候，我们就要将此配置项设置为 False ，拒绝遵守 Robot协议！所以在这里设置为False。当然可能本次爬取不一定会被它限制，但是我们一般来说会首先选择禁止它。

尝试最初的爬取

接下来我们什么代码也不修改，执行爬取，运行如下命令：

scrapy crawl zhihu

你会发现爬取结果会出现这样的一个错误：

500Internal Server Error

访问知乎得到的状态码是500，这说明爬取并没有成功，其实这是因为我们没有加入请求头，知乎识别User-Agent发现不是浏览器，就返回错误的响应了。所以接下来的一步我们需要加入请求headers信息，你可以在Request的参数里加，也可以在spider里面的custom_settings里面加，当然最简单的方法莫过于在全局settings里面加了。我们打开settings.py文件，取消DEFAULT_REQUEST_HEADERS的注释，加入如下的内容：

DEFAULT_REQUEST_HEADERS = {

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'

}

这个是为你的请求添加请求头，如果你没有设置headers的话，它就会使用这个请求头请求，添加了User-Agent信息，所以这样我们的爬虫就可以伪装浏览器了。接下来重新运行爬虫。

scrapy crawl zhihu

这时你就会发现得到的返回状态码就正常了。解决了这个问题，我们接下来就可以分析页面逻辑来正式实现爬虫了。

爬取流程

接下来我们需要先探寻获取用户详细信息和获取关注列表的接口。回到网页，打开浏览器的控制台，切换到Network监听模式。我们首先要做的是寻找一个大V，以轮子哥为例吧，它的个人信息页面网址是：https://www.zhihu.com/people/excited-vczh 首先打开轮子哥的首页

我们可以看到这里就是他的一些基本信息，我们需要抓取的就是这些，比如名字、签名、职业、关注数、赞同数等等。接下来我们需要探索一下关注列表接口在哪里，我们点击关注选项卡，然后下拉，点击翻页，我们会在下面的请求中发现出现了 followees开头的Ajax请求。这个就是获取关注列表的接口。

我们观察一下这个请求结构

首先它是一个Get类型的请求，请求的URL是https://www.zhihu.com/api/v4/members/excited-vczh/followees，后面跟了三个参数，一个是include，一个是offset，一个是limit。观察后可以发现，include是一些获取关注的人的基本信息的查询参数，包括回答数、文章数等等。 offset是偏移量，我们现在分析的是第3页的关注列表内容，offset当前为40。 limit为每一页的数量，这里是20，所以结合上面的offset可以推断，当offset为0时，获取到的是第一页关注列表，当offset为20时，获取到的是第二页关注列表，依次类推。然后接下来看下返回结果：

可以看到有data和paging两个字段，data就是数据，包含20个内容，这些就是用户的基本信息，也就是关注列表的用户信息。 paging里面又有几个字段，is_end表示当前翻页是否结束，next是下一页的链接，所以在判读分页的时候，我们可以先利用is_end判断翻页是否结束，然后再获取next链接，请求下一页。这样我们的关注列表就可以通过接口获取到了。接下来我们再看下用户详情接口在哪里，我们将鼠标放到关注列表任意一个头像上面，观察下网络请求，可以发现又会出现一个Ajax请求。

可以看到这次的请求链接为https://www.zhihu.com/api/v4/members/lu-jun-ya-1 后面又一个参数include，include是一些查询参数，与刚才的接口类似，不过这次参数非常全，几乎可以把所有详情获取下来，另外接口的最后是加了用户的用户名，这个其实是url_token，上面的那个接口其实也是，在返回数据中是可以获得的。

所以综上所述：

理清了如上接口逻辑后࿰