经过决定运用Python Scrapy库进行数据爬取,于是开展了针对Scrapy的学习
1.整体架构
官方解析:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
架构理解:
Scrapy Engine:即Scrapy引擎,负责综合控制各个事件,并调度各个部件;
Scheduler:即调度器,从引擎接收信号后将数据入列,并可再次返回给引擎,用于决定操作的调度顺序;
Downloader:即下载器,抓取网页并将网页内容返还给Spiders;
Spiders:即爬虫,自定义的类,用以解析网页,发起url请求和提取item;