Gerapy分布式爬虫管理框架

最新推荐文章于 2025-09-09 18:10:17 发布

转载最新推荐文章于 2025-09-09 18:10:17 发布 · 328 阅读

Gerapy是一款分布式爬虫管理框架，支持Python3及多种爬虫组件。本文详细介绍Gerapy的安装配置流程，包括环境搭建、主机配置、爬虫项目部署等关键步骤。

Gerapy分布式爬虫管理框架

Gerapy 是一款分布式爬虫管理框架，支持 Python 3，基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发。

$ pip install gerapy

$ gerapy

$ gerapy init

$ cd gerapy

$ gerapy migrate

$ gerapy runserver

三、配置gerapy的主机

1. 点击左侧 Clients 选项卡，即主机管理页面，添加我们的 Scrapyd 远程服务，点击右上角的创建按钮即可添加我们需要管理的 Scrapyd 服务。

在cmd中，开启scrapyd服务。(如果scrapyd在远程服务器上已经部署成功了，那么是不需要再次进行开启的。一般远程服务器上的scrapyd会一直保持运行状态。)
再次刷新主机管理，scrapyd的连接状态变成normal即可。

四、在gerapy中部署爬虫项目

1. 点击左侧的 Projects ，即项目管理选项。

点击部署按钮进行打包和部署，在右下角我们可以输入打包时的描述信息，类似于 Git 的 commit 信息，然后点击打包按钮，即可发现 Gerapy 会提示打包成功，同时在左侧显示打包的结果和打包名称。