Webmagic 内部实现

Webmagic 内部实现

1、Site的地位是全局的setting或环境

2、scheduler 大概是一个url排序和去重的队列

3、downloader 封装httpclient连接池,进行下载操作;结果产出page(封装下载的内容和http 状态码)

4、PageProcessor 对下载的内容做处理

pipeline:对processor处理的结果进行计算、持久化等处理

5、spider 组织所有的流程和模块。核心逻辑 run:1》创建线程池,2》从scheduler获取URL 3》 调用downloader下载 4》 回调PageProcessor 4》 提取新的url和request 5》 回调pipeline 6》回调 SpiderListener

 

模型的顺序:Request->page -> ResultItems + Task 

 

核心是processor + pipeline

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值