之前部署爬虫都是使用的crawlab,但是项目本身比较大,每次上传爬虫都需要将整个项目上传(拆成小的又很麻烦),所以决定将crawlab中的项目迁移到scrapydweb上。
安装部署流程就不详细道来了,主要是分享之前在使用的时候遇到的一些问题。
一.部署项目的路径
开始部署的时候,是将我的整个git项目路径部署到scrapydweb上,也就是scrapy.cfg文件所在目录
但是在scrapydweb上无法显示我的scrapy项目,修改到scrapy.cfg所在目录的上一级目录
就可以正常显示了
二. “Not a directory” 报错
出现这个问题主要是我在代码中添加了
这个主要是使用了os.path,在scrapyd-client(GitHub - scrapy/scrapyd-client: Command line client for Scrapyd server) 中有解释
三. 报错:没有“_job” 参数
这是因为我在代码中进行了初始化,使用了__init__()方法,添加**kwargs即可,即可兼容_job参数。
四. 爬虫运行一小段时间自动停止
因为我在代码中需要传递参数,所以需要使用scrapydweb的settings & arguments设置,但是
在additional中scrapydweb会默认配置settings参数,导致我的爬虫莫名其妙的翻了十页就自动停止,后来查看log 的时候发现是因为翻页数量导致的爬虫停止。
我自己没有设置翻页数量,那只有scrapydweb默认设置的了
将其默认参数删除,爬虫就恢复正常了