Scrapy爬虫程序监控平台构建（二）：Scrapydweb

風の住む街~

于 2020-12-11 11:28:23 发布

阅读量2k

点赞数

分类专栏： # Scrapy爬虫框架

本文链接：https://blog.csdn.net/weixin_38924500/article/details/111029769

版权

18 篇文章 3 订阅

订阅专栏

我这里选用scrapydweb作为爬虫程序的监控平台。

1.程序安装

pip install scrapydweb

启动前需要保证对应的scrapyd服务已经启动。

scrapydweb

在这里插入图片描述
注意：如果出现6801端口无法连接，这个是因为你没有配置集群环境，不用担心。

配置文件会在我们当前启动scrapydweb路径下，scrapyweb_settings_v10.py
配置文件中都会有详细的注解，大家可以根据实际需求尽心修改。

ENABLE_AUTH = True
USERNAME = 'username'
PASSWORD = 'password'

这里是scrapydweb比较方便的地方，不用事先将项目先上传到scrapyd服务器，scrapydweb能够帮我们上传。
在这里插入图片描述

如果我们的ScrapydWeb 和某个 Scrapyd 运行于同一台主机，这三个设置项都需要配置。
在这里插入图片描述

#这个配置时scrapd的server请求地址。
LOCAL_SCRAPYD_SERVER = '127.0.0.1:6800'

注意：如果我们的ScrapydWeb 和某个 Scrapyd 运行于同一台主机，scrapydweb会直接去访问log文件，而不是去请求这地址。

#我们运行scrapyd时会产生一个logs文件夹，这里需要将logs的位置配置
LOCAL_SCRAPYD_LOGS_DIR =‘’

#默认值为False，将其设置为True，可在ScrapydWeb启动时自动将LogParser作为子进程运行。
ENABLE_LOGPARSER = True

如果需要远程访问 Scrapyd，则需将 Scrapyd 配置文件中的 bind_address 修改为

bind_address = 0.0.0.0

然后重启 Scrapyd service。

Servers 页面自动输出所有 Scrapyd server 的运行状态。
通过分组和过滤可以自由选择若干台 Scrapyd server，然后在上方 Tabs 标签页中选择 Scrapyd 提供的任一 HTTP JSON API，实现一次操作，批量执行。

在这里插入图片描述

这里有Jobs（任务列表）、Node reports（节点报告）、cluster reports(集群报告)，三个模块。

通过配置 SCRAPY_PROJECTS_DIR 指定 Scrapy 项目开发目录，ScrapydWeb 将自动列出该路径下的所有项目，默认选定最新编辑的项目，选择项目后即可自动打包和部署指定项目。
如果 ScrapydWeb 运行在远程服务器上，除了通过当前开发主机上传常规的 egg 文件，也可以将整个项目文件夹添加到 zip/tar/tar.gz 压缩文件后直接上传即可，无需手动打包为 egg 文件。
支持一键部署项目到 Scrapyd server 集群。

在这里插入图片描述

如果在同一台主机运行 Scrapyd 和 ScrapydWeb，建议设置 SCRAPYD_LOGS_DIR 和 - ENABLE_LOGPARSER，则启动 ScrapydWeb 时将自动运行 LogParser，该子进程通过定时增量式解析指定目录下的 Scrapy 日志文件以加快 Stats 页面的生成，避免因请求原始日志文件而占用大量内存和网络资源。
同理，如果需要管理 Scrapyd server 集群，建议在其余主机单独安装和启动 LogParser。
如果安装的 Scrapy 版本不大于 1.5.1，LogParser 将能够自动通过 Scrapy 内建的 Telnet Console 读取 Crawler.stats 和 Crawler.engine 数据，以便掌握 Scrapy 内部运行状态。

关注