2018年09月_silence cc

11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 scrapy_redis 解决空跑问题,自动关闭爬虫

使用过scrapy_redis框架的人一定知道，scrapy redis 在没有requests的时候，会阻塞等待接收start_url...

2018-09-13 17:26:34 1304 1

转载 scrapy-redis所有request爬取完毕，如何解决爬虫空跑问题？

scrapy-redis所有request爬取完毕，如何解决爬虫空跑问题？1. 背景根据scrapy-redis分布式爬虫的原理，多台爬虫主机共享一个爬取队列。当爬取队列中存在request时，爬虫就会取出reque...

2018-09-12 18:53:13 649

原创使用scrapy及组件scrapy-redis进行分布式爬取腾讯社招

scrapy本身是不支持分布式爬取的，但和组件scrapy-redis一起使用，则支持分布式爬取。分布式爬取原理：所有爬虫端共享redis里面的request请求，然后从这里面获取请求，再去爬取，直至队列为空。共使用了3个系统，win10和ubuntu作为爬虫客户端，另外一个ubuntu存放redis数据库用来保存爬取的数据请求及去重指纹。遇到的问题：爬取时有一个爬虫端不能爬取数据，...

2018-09-10 18:48:53 669