Python网络爬虫——scrapy的爬虫框架安装

最新推荐文章于 2022-01-16 17:00:45 发布

小记专家

最新推荐文章于 2022-01-16 17:00:45 发布

阅读量237

点赞数

文章标签：网络爬虫 python

本文链接：https://blog.csdn.net/m0_43521164/article/details/102479400

版权

scrapy是一个功能强大并且非常快速的网络爬虫框架；它是python的第三方在这里插入图片描述库，也是基于Python实现网络爬虫的重要的技术路线；
第一条数据路径：从SPIDERS模块通过ENGINE模块到达SCHEDULER模块；其中，ENGINE模块从SPIDERS模块获得了爬去用户的请求，我们对这种请求叫做REQUESTS（我们可以简单的将这种请求理解为一个url），爬去请求到达从SPIDERS到达ENGINE模块之后，ENGINE将这个爬去请求发送给了SCHEDULER模块。SCHEDULER模块负责对爬去请求进行调度；
第二条数据路径：是从SCHEDULER模块通过ENGINE模块到达DOWNLOAND模块，并且数据最终返回到SPIDERS模块；首先，ENGINE模块从SCHEDULER模块获得下一个要爬取的请求，这个网络请求是真实的，要去网络上爬去的请求；ENGINE获得这个请求之后，通过中间介发送给DOWNLOADER模块，DOWNLOADER模块获得这个请求之后，拿着这个模块链接到互联网，并且爬去相关的网页；爬去到网页之后，DOWNLIADER模块将爬去的内容形成一个对象；这个对象叫响应RESPONS。将所有的内容分装成RESPONS之后，将这个响应通过ENGINE最终发送给SPIDERS。
第三条数据路径：从SPIDERS模块经过ENGINE模块到达ITEM PIPELINES模块以及SCHEDULER模块；首先，SPIDERS处理从DOWNLOADER获得的响应（也就是从网络中爬去的相关内容），处理之后产生了两个数据类型，一个类型叫爬去项（ITEM），另一个叫爬取请求（REQUESTS）。
scrapy爬虫的框架中包含“5+2”结构，也就是说它有五个模块和两个中间介。
Engine：在整个框架的最中心位置是Engine模块，他控制所有模块之间的数据流，任何模块和模块之间的流动都要经过Engine之间的调动，同时，它根据各个模块提供的事件进行触发。（不需要进行修改，是固定的了）
Dowloader:它是根据用户提供的请求来进行下载网页的，它的功能比较单一，只是获得一个请求，并且向网络中提交这个请求，最终获得返回的相关内容；（不需要进行修改，是固定的了）
Scheduler：它是对所有的爬去请求进行调度管理的一个模块；对于一个中规模的爬虫，可能有很多的对网络的请求，那么这些请求中哪个先访问，哪个后访问，都是有Scheduler模块来进行调度的，调度的方法和调度的功能也相对的固定，因此用户也不用对他的代码进行修改的。（不需要进行修改，是固定的了）
从这三个模块来看，都是不用在进行修改的了，将这三个模块放一块形成的一个功能就是，由Scheduler发送请求经过Engine到达Dowloader。如果用户希望对这个请求做一定的配置，因此，在Engine模块和Dowloader模块之间增加了中间介；这个中间介就叫做Downlosder Middleware 这个中间介就是对Engine、Dowloader、Scheduler三者之间的数据流进行用户可配置的操作。在这部分用户可以编写配置代码的。
Spider：它能够解析Dowloader模块返回的用户响应(Response)；能够产生爬取项（scraped item）;并且可以产生额外的爬取请求（request）；（它是用户主要进行编写代码的配置代码）
Item Pipelines:它主要以流水线的方式进行处理Spider产生的爬取项。由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型。它可能的操作包括了：清理、检验和查看爬去项中的一个HTML数据、将数据存储到数据库中。需要用户进行编写代码。

小记专家

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Python网络爬虫——scrapy的爬虫框架安装

scrapy是一个功能强大并且非常快速的网络爬虫框架；它是python的第三方库，也是基于Python实现网络爬虫的重要的技术路线；第一条数据路径：从SPIDERS模块通过ENGINE模块到达SCHEDULER模块；其中，ENGINE模块从SPIDERS模块获得了爬去用户的请求，我们对这种请求叫做REQUESTS（我们可以简单的将这种请求理解为一个url），爬去请求到达从SPIDERS到达ENG...
复制链接

扫一扫