Scrapy可视化管理管理工具总结

本文总结了与Scrapy框架相关的一些开源工具

1、scrapyd

项目地址:https://github.com/scrapy/scrapyd

文档: https://scrapyd.readthedocs.io/

Scrapyd 是一个运行 Scrapy 爬虫程序的服务

pip install scrapyd

scrapyd  # 启动服务

环境测试: http://localhost:6800/
在这里插入图片描述

2、ScrapydAPI

项目地址:https://github.com/djm/python-scrapyd-api

一个 Scrapyd API 的python封装

pip install python-scrapyd-api
from scrapyd_api import ScrapydAPI

scrapyd = ScrapydAPI('http://localhost:6800')

3、ScrapydArt

项目地址:https://github.com/dequinns/ScrapydArt

ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API

pip install scrapydart 

$ scrapydart  # 启动

web界面 http://localhost:6800
在这里插入图片描述

4、ScrapydWeb

项目地址:https://github.com/my8100/scrapydweb

功能特性:
Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth

pip install scrapydweb

$ scrapydweb -h    # 初始化
$ scrapydweb  # 启动

管理页面:http://127.0.0.1:5000

在这里插入图片描述

参考:
如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

5、Gerapy

项目地址:https://github.com/Gerapy/Gerapy

一款分布式爬虫管理框架
控制爬虫运行,
查看爬虫状态,
查看爬取结果,
项目部署,
主机管理,
编写爬虫代码

pip3 install gerapy

$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver

web界面: http://localhost:8000
在这里插入图片描述

参考:
scrapyd部署、使用Gerapy 分布式爬虫管理框架

6、SpiderKeeper

项目地址:https://github.com/DormyMo/SpiderKeeper
一个scrapyd的可视化工具

pip install spiderkeeper

$ spiderkeeper  # 启动

web ui : http://localhost:5000
在这里插入图片描述

7、SpiderAdmin

github: https://github.com/mouday/SpiderAdmin
pypi: https://pypi.org/project/spideradmin/

功能介绍
1、对Scrapyd 接口进行可视化封装,对Scrapy爬虫项目进行删除 和 查看

2、对爬虫设置定时任务,支持apscheduler 的3中方式和随机延时,共计4中方式
单次运行 date
周期运行 corn
间隔运行 interval
随机运行 random

3、基于Flask-BasicAuth 做了简单的权限校验

启动运行

$ pip3 install spideradmin

$ spideradmin       # 启动服务

访问:
http://127.0.0.1:5000/
在这里插入图片描述

8、Spider Admin Pro

Github: https://github.com/mouday/spider-admin-pro

Gitee: https://gitee.com/mouday/spider-admin-pro

Pypi: https://pypi.org/project/spider-admin-pro

Spider Admin Pro 是Spider Admin的升级版

简化了一些功能;
优化了前端界面,基于Vue的组件化开发;
优化了后端接口,对后端项目进行了目录划分;
整体代码利于升级维护。
目前仅对Python3进行了支持

运行启动

$ pip3 install spider-admin-pro

$ python3 -m spider_admin_pro.run

在这里插入图片描述

总结

分类名称简介
爬虫框架Scrapy爬虫程序
服务端ScrapydScrapy爬虫管理程序
服务端ScrapydArt增强版的 Scrapyd
客户端ScrapydAPI对Scrapyd API的封装
客户端ScrapydWeb管理调度 Scrapyd
客户端Gerapy管理调度 Scrapyd
客户端SpiderKeeper管理调度 Scrapyd
客户端SpiderAdmin管理调度 Scrapyd
客户端Spider Admin Pro(推荐)管理调度 Scrapyd
Python是一种高级编程语言,而Django和ScrapyPython的两个流行的库。这些库都可以用于构建Web应用程序和爬虫。 首先,Python是一种易学易用的编程语言,它具有简洁的语法和强大的功能,非常适合初学者和专业开发人员。它在许多领域都有广泛的应用,包括Web开发、数据分析和人工智能等。 然后,Django是一个基于Python的开发框架,它提供了一系列的工具和组件,使开发Web应用程序变得更加简单和高效。使用Django可以快速构建安全、可扩展和易维护的Web应用程序。它提供了强大的ORM(对象-关系映射)功能,可以使用Python代码来操作数据库。 最后,Scrapy是一个强大的Python爬虫框架,用于抓取和提取互联网上的数据。它提供了简单易用的API和丰富的功能集,可用于构建高性能的网络爬虫Scrapy支持异步并发请求,具有自动重试和错误处理等功能。它还提供了强大的数据提取功能,可以将爬取的数据存储到数据库或导出为不同的格式。 为了可视化Python、Django和Scrapy,可以使用各种库和工具。例如,可以使用Matplotlib、Seaborn和Plotly等库创建各种图表来展示数据。此外,可以使用Django的模板语言和前端框架如Bootstrap来设计和构建用户界面。还可以使用Django的内置管理界面来可视化管理数据库中的数据。 总之,Python、Django和Scrapy是强大的工具和库,可以用于开发Web应用程序和爬虫。通过使用适当的可视化库和技术,可以为这些应用程序创建出色的可视化效果,使用户能够更好地理解和分析数据。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值