Scrapyd 学习记录

最近想找一个用来管理scrapy项目的界面或系统,于是发现了scrapyd,也许会有用。


在scrapy项目的目录下,在命令行中运行scrapyd就能打开scrapyd。


然后在浏览器中打开http://localhost:6800/ 就能进入scrapyd界面。


之后在我安装的curl目录下(在学Elasticsearch时安装),用curl运行了几个 scrapyd 提供的 json API,都没有出现应该出现的结果。几个例子如下:


之后上网找到一个scrapyd-client的包,用于控制scrapyd的使用。在cmd中,需要用 scrapyd deploy <...> 命令进行操作

scrapyd是一个基于Twisted框架的开源爬虫部署工具,它提供了一套用于调度、管理和监控爬虫的HTTP API,并且支持将爬虫部署到分布式环境中。 scrapyd的源码主要包括以下几个模块和功能: 1. Scheduler (调度器):负责管理和调度爬虫的运行。它通过接收HTTP请求来接收并调度爬虫任务,并根据优先级和设定的运行规则来调度爬虫的执行。 2. Scrapy daemon (爬虫守护进程):负责启动和管理Scrapy引擎,该引擎将爬虫的请求发送给下载器并处理爬取过程中的各种事件。 3. Deployer (部署器):用于将爬虫部署到远程服务器或分布式环境中。它提供了一套API,允许用户通过HTTP请求将爬虫上传到Scrapyd服务,并指定要运行的项目和爬虫名称。 4. Utilities (工具类):scrapyd还提供了一些辅助工具类,如配置管理和日志记录。这些工具类用于处理爬虫的配置文件,记录爬虫的运行日志,并提供一些方便的功能,如爬虫的暂停和恢复。 5. Web接口:scrapyd还提供了一个基于Twisted和Tornado的Web接口,用于展示和管理爬虫任务的状态、运行日志和统计信息。通过这个Web接口,用户可以方便地监控和管理爬虫的运行。 总的来说,scrapyd的源码主要实现了爬虫的调度管理、部署和监控功能。它通过Twisted框架的异步IO特性,使得爬虫能够高效地运行,并提供了一套API和Web接口,方便用户进行爬虫任务的管理和监控。同时,scrapyd还支持分布式环境,可以将爬虫任务部署到多个节点上,实现更高效的爬取和处理能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值