Python爬虫——Scrapy框架

最新推荐文章于 2024-06-22 16:33:22 发布

程序员老华

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量1.4k

点赞数

文章标签： python 爬虫开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_72557783/article/details/128256861

版权

Scrapy是用python实现的一个为了爬取网站数据，提取结构性数据而编写的应用框架。使用Twisted高效异步网络框架来处理网络通信。

Scrapy架构：

ScrapyEngine：引擎。负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。此组件相当于爬虫的“大脑”，是整个爬虫的调度中心。

Schedule：调度器。接收从引擎发过来的requests，并将他们入队。初始爬取url和后续在页面里爬到的待爬取url放入调度器中，等待被爬取。调度器会自动去掉重复的url。

Downloader：下载器。负责获取页面数据，并提供给引擎，而后提供给spider。

Spider：爬虫。用户编些用于分析response并提取item和额外跟进的url。将额外跟进的url提交给ScrapyEngine，加入到Schedule中。将每个spider负责处理一个特定(或一些)网站。

ItemPipeline：负责处理被spider提取出来的item。当页面被爬虫解析所需的数据存入Item后，将被发送到Pipeline，并经过设置好次序

DownloaderMiddlewares：下载中间件。是在引擎和下载器之间的特定钩子(specific hook)，处理它们之间的请求(request)和响应(response)。提供了一个简单的机制，通过插入自定义代码来扩展Scrapy功能。通过设置DownloaderMiddlewares来实现爬虫自动更换user-agent,IP等。

SpiderMiddlewares：Spider中间件。是在引擎和Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items或requests)。提供了同样简单机制，通过插入自定义代码来扩展Scrapy功能。

数据流：

1.ScrapyEngine打开一个网站，找到处理该网站的Spider，并向该Spider请求第一个(批)要爬取的url(s)；

2.ScrapyEngine向调度器请求第一个要爬取的url，并加入到Schedule作为请求以备调度；

3.ScrapyEngine向调度器请求下一个要爬取的url；

4.Schedule返回下一个要爬取的url给ScrapyEngine，ScrapyEngine通过DownloaderMiddlewares将url转发给Downloader；

5.页面下载完毕，Downloader生成一个页面的Response，通过DownloaderMiddlewares发送给ScrapyEngine；

6.ScrapyEngine从Downloader中接收到Response，通过SpiderMiddlewares发送给Spider处理；

7.Spider处理Response并返回提取到的Item以及新的Request给ScrapyEngine；

8.ScrapyEngine将Spider返回的Item交给ItemPipeline，将Spider返回的Request交给Schedule进行从第二步开始的重复操作，直到调度器中没有待处理的Request，ScrapyEngine关闭。

安装scrapy：

1.安装wheel支持：
$ pip install wheel

2.安装scrapy框架：

$ pip install scrapy

3.window下，为了避免windows编译安装twisted依赖，安装下面的二进制包

$ pip install Twisted-18.4.0-cp35-cp35m-win_amd64.whl

scrapy项目结构：
在某路径下创建scrapy项目： $ scrapy startproject my_p

最低0.47元/天解锁文章

程序员老华

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫——Scrapy框架

Scrapy是用python实现的一个为了爬取网站数据，提取结构性数据而编写的应用框架。使用Twisted高效异步网络框架来处理网络通信。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。