ken桑带你读源码 之scrapy scrapy\core\scheduler.py

从英文来看是调度程序  我们看看是怎么调度 

  首先爬虫队列有两个 一个是保存在内存中  没有历史记录   重新开始  42行  self.mqs = self.pqclass(self._newmq)   

       另外一个是存在硬盘的队列  用于断点续传    大家看  43 行 self._dq() if self.dqdir else None     先是判断 是否有  join(jobdir, 'requests.queue')  这个文件 (保存已抓取request hash)   

        然后 获取 join(self.dqdir, 'active.json')    该文件是已经塞入队列但没有抓取的url     

 

      53行 def enqueue_request    塞入队列  先保存硬盘队列  然后不行 再保存内存队列    

      66行 def next_request(self):    获取队列  

 

    

转载于:https://www.cnblogs.com/gzwwj/p/8273967.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值