Webmagic 内部实现
1、Site的地位是全局的setting或环境
2、scheduler 大概是一个url排序和去重的队列
3、downloader 封装httpclient连接池,进行下载操作;结果产出page(封装下载的内容和http 状态码)
4、PageProcessor 对下载的内容做处理
pipeline:对processor处理的结果进行计算、持久化等处理
5、spider 组织所有的流程和模块。核心逻辑 run:1》创建线程池,2》从scheduler获取URL 3》 调用downloader下载 4》 回调PageProcessor 4》 提取新的url和request 5》 回调pipeline 6》回调 SpiderListener
模型的顺序:Request->page -> ResultItems + Task
核心是processor + pipeline