分布式爬虫
牛帅兵
Python
Go
展开
-
scrapy部署分布式爬虫
首先需要下载redis数据库和Redis数据可的可视化工具,将redis数据库设置为远程连接打开该文件,修改里面的配置信息修改该值为主机IP地址关闭保护模式(将yes改为no)如果电脑中服务已经存在redis服务,需要将redis服务卸载之后,重新启动,并设置为自启。相关的redis命令如下:a> 安装服务redis-server --service-install r...原创 2018-09-26 20:29:27 · 645 阅读 · 1 评论 -
使用布隆去重代替scrapy_redis(分布式爬虫)自带的dupefilter
使用布隆去重代替scrapy_redis(分布式爬虫)自带的dupefilterGithub下载链接:https://github.com/liyaopinner/BloomFilter_imooc精简版百度云盘链接: https://pan.baidu.com/s/11a_K_6WTifeHTG8lIY5ckQ 提取码: kq73安装mmh3库a>使用布隆去重之前需要安装mmh3...原创 2018-09-28 20:42:59 · 1941 阅读 · 1 评论