2021-11-13

最新推荐文章于 2022-03-20 16:39:26 发布

m0_50617513

最新推荐文章于 2022-03-20 16:39:26 发布

阅读量537

点赞数

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_50617513/article/details/121299965

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Scrapy运行流程

1）当爬虫（Spider）要爬取某URL地址的页面时，使用该URL初始化Request对象提交给引擎（Scrapy Engine），并设置回调函数。 Spider中初始的Request是通过调用start_requests() 来获取的。start_requests() 读取start_urls 中的URL，并以parse为回调函数生成Request 。
2）Request对象进入调度器(Scheduler)按某种算法进行排队，之后的每个时刻调度器将其出列，送往下载器。
3）下载器（Downloader）根据Request对象中的URL地址发送一次HTTP请求到网络服务器把资源下载下来，并封装成应答包(Response)。
4）应答包Response对象最终会被递送给爬虫（Spider）的页面解析函数进行处理。
5）若是解析出实体（Item），则交给实体管道（Item Pipeline）进行进一步的处理。由Spider返回的Item将被存到数据库(由某些Item Pipeline处理)或使用Feed exports存入到文件中。
6）若是解析出的是链接（URL）,则把URL交给调度器(Scheduler)等待抓取。以上就是Scrapy框架的运行流程，也就是它的工作原理。Request和Response对象是血液，Item是代谢产物。

三、Spiders

在所有的组件中，爬虫（Spider）组件对于用户来说是最核心的组件，完全由用户自己开发。
Spider类定义了如何爬取某个（或某些）网站。包括了爬取的动作（例如：是否跟进链接）以及如何从网页的内容中提取结构化数据（爬取Item）。换句话说，Spider就是我们定义爬取的动作及分析某个网页（或者是有些网页）的地方。从Spider的角度来看，爬取的运行流程如下循环：
1）以初始的URL初始化Request，并设置回调函数。当该Request下载完毕并返回时，将生成Response，并作为参数传给该回调函数。
2）在回调函数内分析返回的（网页）内容，返回 Item 对象或者 Request 或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理，下载相应的内容，并调用设置的callback函数（函数可相同）。
3）在回调函数内，可以使用选择器(Selectors) 来分析网页内容，并根据分析的数据生成Item。
4）最后，由Spider返回的Item将被存到数据库或存入到文件中。

m0_50617513

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-11-13

Scrapy运行流程1）当爬虫（Spider）要爬取某URL地址的页面时，使用该URL初始化Request对象提交给引擎（Scrapy Engine），并设置回调函数。 Spider中初始的Request是通过调用start_requests() 来获取的。start_requests() 读取start_urls 中的URL，并以parse为回调函数生成Request 。2）Request对象进入调度器(Scheduler)按某种算法进行排队，之后的每个时刻调度器将其出列，送往下载器。3）下载器（D
复制链接

扫一扫