Scrapy框架原理

最新推荐文章于 2024-08-06 10:59:23 发布

weixin_41188789

最新推荐文章于 2024-08-06 10:59:23 发布

阅读量240

点赞数 1

Scrapy框架是一个为了抓取网站数据，提取结构性数据而编写的应用框架，只需要实现少量代码，就能够快速的抓取到数据内容。Scrapy 使用了 Twisted异步网络框架来处理网络通讯，可以加快下载速度，并且包含了各种中间件接口，可以灵活的完成各种需求。
Scrapy框架的工作流程：
（1）首先爬虫文件发送Requests请求，经过引擎交给调度器。
（2）调度器对请求进行排序、入队处理后，经过引擎和中间件，将请求发送
给下载器。
（3）下载器会向互联网发送请求，先接收下载响应Response，再将响应经
过引擎交给Spiders爬虫文件。
（4）Spiders会处理Response响应，提取数据并将数据经引擎交给管道保存，
提取到的URL地址重新经过引擎交给调度器。
（5）重复上述步骤，进入循环，直到无URL请求停止。
（6）工作结束。