Scrapy框架
- 框架
- 爬虫变得相当简单
- 异步网络框架Twisted(默认自带多线程)
- 提供各种接口以及中间件
scrapy长什么样子
- Spider(爬虫)
- 初次发起爬虫请求
- 解析response得到的数据
- 若是url地址,将url地址传递给调度器进行循环爬取
- 若是数据,传递给Item pipeline
- Scheduler(调度器)
- 负责接收引擎发送过来的reques请求
- 在此处进行队列的整合
- downloader(下载器)
- 主要负责从互联网进行网页内容的请求
- Item pipeline (数据存储)
- 主要负责spider中得到数据(item)
- 进行数据的处理与保存
- Scrapy Engine (引擎)
- 负责Spider,Itempipeline,Scheduler, download之间的协调与通信
- 数据传送
- Mownload Middlewares