python进阶 -----scrapyd-redis分布式爬虫

最新推荐文章于 2022-10-09 21:17:00 发布

python搬运工

最新推荐文章于 2022-10-09 21:17:00 发布

阅读量337

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41293711/article/details/82872067

版权

python 专栏收录该内容

17 篇文章 2 订阅

订阅专栏

大家都知道，现在爬虫爬取的数据很多，仅凭单台主机已经无法满足人们的需要，所以，分布式爬虫提供了很好的解决方案。

第一步，我们需要安装redis服务，及redis的可视化管理工具。附上下载链接：

https://github.com/MSOpenTech/redis/tags 安装教程：https://blog.csdn.net/u010137839/article/details/80210328‘

第二步，我们需要修改redis的配置文件

将redis.windows.conf的bind 127.0.0.1 改为0.0.0.0

将redis.windows.conf的protected-mode 改为no （这个是取消redis的保护模式）

第三步，我们需要安装scrapy_redis这个模块

安装命令：pip install scrapy_redis

第四步，我们需要修改我们带代码，来让我们的代码能分别部署在不同的机器上。

首先，我们需要在我们的配置文件上添加这样几句话：

第五步，我们要修改自己的爬虫文件，使其能接收到redis传过来的网址。

第六步，如果你的爬虫里面有需要连接数据库的，要先设置数据库为可连接状态

先打开数据库管理工具，打开mysql数据库里面的user表，设置root的权限为%（表示任何人都可以连接）
然后刷新数据库权限

第七步，把同一套代码拷到多台服务器当中，启动redis，以redis.windows.conf启动。

最后一步，启动所有主机上的同一套项目。

注意事项：

       分布式用到的代码应该是同一套代码
       1）先把项目配置为分布式
       2）把项目拷贝到多台服务器中
       3）把所有爬虫项目都跑起来
      4）在主redis-cli中lpush你的网址即可
       5）效果：所有爬虫都开始运行，并且数据还都不一样

python搬运工

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python进阶 -----scrapyd-redis分布式爬虫

大家都知道，现在爬虫爬取的数据很多，仅凭单台主机已经无法满足人们的需要，所以，分布式爬虫提供了很好的解决方案。第一步，我们需要安装redis服务，及redis的可视化管理工具。附上下载链接： https://github.com/MSOpenTech/redis/tags 安装教程：https://blog.csdn.net/u010137839/article/...
复制链接

扫一扫

专栏目录

python搬运工 CSDN认证博客专家 CSDN认证企业博客

码龄7年

17: 原创

31万+: 周排名

205万+: 总排名

6万+: 访问

: 等级

368: 积分

18: 粉丝

16: 获赞

6: 评论

52: 收藏

私信

关注

热门文章

分类专栏

goland
python 17篇

最新评论

记pyqt5打包成exe程序时的一个错误
CSDN-Ada助手: 非常感谢博主分享这篇关于pyqt5打包成exe程序时的错误处理经验。我觉得你可以继续写一篇关于如何使用pyinstaller打包pyqt5程序的技术文章，这样的文章对其他用户在打包pyqt5程序时会非常有帮助。相信会有更多读者受益于你的分享和经验。期待你的下一篇文章！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
Python编程入门篇------if条件判断语句和for循环
m0_63841213: 清晰明了，感谢感谢
python爬虫基础--------urllib模块的安装和简单使用
DZDZ233: 非常感谢
python爬虫基础--------urllib模块的安装和简单使用
江姐vior: [code=python] [/code] import pandas as pd
python编程基础------------------------错误类型总结
erlinziilove: 再接再励吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。