scrapy 爬虫原理:
Scrapy主要包括了以下组件:
框架先从spiders这走,给定url,然后爬取,如果是数据,就从items走,进行储存,如果是请求就从中间件到引型到调度器。然后调度器,通过下载中间件到下载器。然后进行下载。再通过下载中间件到引型,再到爬虫,是数据就到items,是请求就再通过引型到调度器。
这里能自己定义和改动的就是,items,spiders,和2个中间件(spiderMiddlewares,DownloadsMiddlewares),和itemPipline