分布式爬虫及Bloom fileter去重

分布式爬虫介绍 1.使用redis: 虽然scrapy帮我们将爬虫程序处理成了多线程加异步(默认100个线程),但是我们只能在一台主机上运行,所以爬取速率还是很有限的,分布式爬虫将多台主机组合起来,共同完成一个爬虫任务,这将大大提高爬虫效率。 2.维护爬虫队列 我们要做的就是在多台主机...

2018-07-09 19:33:17

阅读数:253

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭