spiderman
基于 scrapy-redis 的通用分布式爬虫框架
github 项目地址 spiderman
目录
demo采集效果
爬虫元数据
cluster模式
standalone模式
kafka实时采集监控
功能
-
自动建表
-
自动生成爬虫代码,只需编写少量代码即可完成分布式爬虫
-
自动存储元数据,分析统计和补爬都很方便
-
适合多站点开发,每个爬虫独立定制,互不影响
-
调用方便,可以根据传参自定义采集的页数以及启用的爬虫数量
-
扩展简易,可以根据需要选择采集模式,单机 standalone (默认) 或者 分布式cluster
-
采集数据落地方便,支持多种数据库,只需在 spider 中启用相关的管道
关系型
- mysql
- sqlserver