- 引擎:用来处理整个系统的数据流处理
- 调度器:用来接收引擎发过来的请求,压入列队中,当引擎再次请求是返回
- 下载器:用于下载页面的内容,并将页面内容返回给spider
- 爬虫:主要是冲特定的页面中提取自己所需的信息
- 下载器中间件:位于scrapy引擎和下载器之间的框架,主要处理scrapy引擎与下载器之间的请求和响应
- 调度器的器中间件:位于scrapy引擎和调度器之间的中间件,从调度scrapy引擎发送到调度器的请求和响应
- 爬虫中间件:位于scrapy引擎和爬虫之间的框架,主要处理蜘蛛的响应输出和请求输出
scrapy运行的流程:
- 引擎从调度器中取出一个url,用于爬取所需的数据
- 引擎讲url封装成一个request传送给下载器,下载器吧资源下载下来,病封装成应答包
- 然后,爬虫(scrapy)解析Response
- 若解析出实体(item),就交给实体管道进行下一步的处理
- 若解析出的是连接(url),则把url交给调度器等待抓取数据