昨天用Shell配合Python做了一个离线的作业控制系统,功能是有了,但是拓展性着实有点差,对小脚本小工具来说效果还可以,但是对于大型的爬虫类以及需要灵活控制的项目,可能就不太适合了。
毕设要做的课题已经确定是“网络爬虫程序”了,所以对爬虫的控制这一点是必不可少的,因此来总结一下今天学习的Scrapy以及Scrapyd。从开发,到部署一条龙的实现一下。
既然是一条龙,那么就把整体的流程走一下,详见下文。
环境
我的编码环境如下:
- OS: windows10
- Python:Python3.6
- Scrapy: Scrapy 1.5.0
- Scrapyd: twistd (the Twisted Windows runner) 17.9.0
具体的安装方式很简单,Python3.6自带了超好用的包管理工具pip,