scrapy_redis分布式爬虫

最新推荐文章于 2020-01-03 16:28:09 发布

askmeto

最新推荐文章于 2020-01-03 16:28:09 发布

阅读量208

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/askme_/article/details/82873840

版权

1.在命令行工具中进入自己的虚拟环境下载scrapy_redis工具包

2.打开自己的爬虫程序，找到settings文件，配置scrapy的调度器和过滤器

就是在settings文件最后加入两句话:

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

如下图所示：

当需要把数据存储到redistribute中时在ITEM_PIPELINES中进行上图配置

3.修改spider爬虫文件

先引入scrapy-redis中的爬虫类： from scrapy_redis.spiders import RedisSpider

再修改爬虫类继承的父类为RedisSpider

其次把start_urls注释掉，不要删掉，之后会用这个值作为网址，来启动爬虫

最后写一个redis_key文件来代替start_urls,如：redis_key = 'yunqi:start_urls', 之后这个值会用作redis读取url地址的标识

4.连接远程服务MySQL,Redis,将远程服务连接开启，保证其他主机能够连接，并进行相关配置

打开mysql中的user表，将其中的root账户的Host更改为%，即可进行远程访问

之后，一定要进行刷新权限，不刷新就不能访问

5.配置远程连接MySQLA和redis地址

配置MYSQL_HOST 为自己的本机地址，并在最下面写入REDIS_URL = 'redis://root:@192.168.9.211:6379'

@后为自己的默认地址，：后为redis端口号

6.以上步骤完成后开始运行调试项目,打开cmd命令行工具，先进入自己redis的安装目录，再进入自己的环境，开启redis服务，如下步骤:

再另开一cmd命令，先进入自己redis的安装目录，再进入自己的环境，输入redis-cli,再进行服务器连接输入lpush redis_key的值网址,如下图所示

7.点击运行项目，出现下图则表示成功插入数据库

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
scrapy_redis分布式爬虫

1.在命令行工具中进入自己的虚拟环境下载scrapy_redis工具包 2.打开自己的爬虫程序，找到settings文件，配置scrapy的调度器和过滤器就是在settings文件最后加入两句话: SCHEDULER = "scrapy_redis.scheduler.Scheduler" DUPEFILTER_CLASS = "s...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。