必要条件
- scrapy
基于此框架开发爬虫脚本 - scrapyd
基于此库远程调度scrapy项目,对外提供api接口 - redis
利用redis-set不可重复特性,写入url-hash自动检测/入库 - mongodb
结果数据写入MongoDB,可更换mysql或其他u like
可视化管理
在开发这个scrapy可视化部署管理软件之前,我也大量使用了前辈大佬们开发的跨平台或基于GO,或基于Django等开发的web版部署,学习了大佬的流程及经验做了总结。
emmm…大概就长这个亚子。未完待续……