基于Scrapyd与Gerapy部署scrapy爬虫方案【可用于分布式爬虫部署】

最新推荐文章于 2024-05-17 10:02:49 发布

Jesse_Kyrie

最新推荐文章于 2024-05-17 10:02:49 发布

阅读量853

点赞数

分类专栏： python爬虫综合文章标签： scrapy 爬虫分布式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Jesse_Kyrie/article/details/133882639

版权

python爬虫综合专栏收录该内容

38 篇文章 8 订阅

订阅专栏

scrapyd部署爬虫

Scrapyd 是一个基于 Scrapy 的开源项目，它提供了一个简单的方式来部署、运行和监控 Scrapy 爬虫。它是一个用于集成 Scrapy 爬虫到分布式架构中的工具，允许您在分布式环境中运行爬虫，并提供了一组 Web API，用于管理和监控爬虫的部署和运行。
Scrapyd 的主要功能和特点包括：

部署爬虫： Scrapyd 允许用户将 Scrapy 爬虫部署到远程服务器，而不必手动在每台服务器上安装和配置爬虫。
运行爬虫：您可以使用 Scrapyd 启动、停止和监控远程服务器上的爬虫。
Web API： Scrapyd 提供了一组 Web API，使您能够通过 HTTP 请求进行爬虫管理和监控，包括部署新版本、运行爬虫、检查运行状态等。

Scrapyd 对于需要在分布式环境中运行 Scrapy 爬虫的项目非常有用，因为它简化了部署和管理的流程，同时提供了对爬虫状态的监控和控制。

安装与启动部署节点

安装 Scrapyd：
首先，您需要确保已经安装了 Python 和 pip。然后使用 pip 安装 Scrapyd：

pip install scrapyd

启动 Scrapyd 服务器：
要在服务器上启动 Scrapyd，只需运行以下命令：

scrapyd

修改默认配置，使scrapyd公开访问【后面部署多台机器需要添加此配置】
在当前运行目录添加文件scrapyd.conf 文件，写入以下内容

bind_address = 0.0.0.0
http_port = 6800

重新启动，并注意防火墙设置，即可在公开网络内访问到。

Gerapy管理scrapyd节点，部署爬虫

Gerapy 是一个分布式爬虫管理框架，用于帮助开发人员创建、调度和监控爬虫。

安装 Gerapy：你可以使用 pip 安装 Gerapy。
```
pip install gerapy
```
初始化工作目录
```
gerapy init
```
初始化数据库
```
gerapy migrate
```
生成管理账号【账号与密码都为admin】
```
gerapy initadmin
```
启动gerapy服务
```
gerapy runserver
```
登录本地8000端口，访问gerapy服务
点击主机管理右边的创建主机，填写正在运行的scrapyd主机，点击认证与创建，即可链接scrapyd任务节点

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Jesse_Kyrie 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。