1.scrapyd的使用:
进入到scrapy的虚拟环境中去,安装scrapyd,如图:
安装完成后,会在我们所安装的虚拟环境的文件目录中生产一个scrapyd.exe文件,如图:
如果要运行scrapyd命令,必须是进入到对应的虚拟环境中才能执行scrapyd命令。
建立一个test目录,在进入到当前虚拟环境建立好该目录:
打开http://127.0.0.1:6800
部署scrapy爬虫项目必须有两个,一个是scrapyd服务器。一个是scrapyd-client将我们写好的能运行的scrapy爬虫项目打包,然后将他部署到scrapyd服务器中去。
2.安装scrapyd-client,这时候就不需要进入任何虚拟环境。
pip install scrapyd-client
cd 到我们的项目的目录
修改scrapy.cfg文件:
deploy:bobby:部署的名称
部署的URL:url
工程名称:ArticleSpider
根据每个人的本地py的版本不一样,推荐在虚拟环境下去安装pip install scrapyd-client,
执行完成后:目录下会出现一个文件:
问题来了:
scrapyd-deploy无法在windows下执行的问题。
在scrapyd-deploy文件存在的目录下新建一个文件取名为:scrapyd-deploy.bat的文件。
打开文件写入内容:(虚拟环境python.exe+scrapyd-deploy文件的路径)
@echo off
“E:\Evns\article_spider\Scripts\python.exe” “E:\Evns\article_spider\Scripts\scrapyd-deploy” %1 %2 %3 %4 %5 %6 %7 %8 %9
报存文件
首先要确保scrap list能运行,如果不能运行需要在工程中加入如下代码,将工程放入python能搜索的范围:
开始部署:scrapyd-deploy bobby -p ArticleSpider
将我们的scrapy的爬虫打包成eggs传递到scrapyd的services中去。
项目上传完成。
《安装cmder》
如上图schedule.json的作用是让我们运行某个工程下的某个爬虫spider
其他的接口说明在下面的链接中:
https://scrapyd.readthedocs.io/en/stable/api.html
需要注意的是部署前需要将scrapyd的服务器启动起来(http://localhost:6800/addversion.json),然后在用命令来执行部署
否则会报错为:
部署成功后的显示为:
在scrapyd启动的目录下会出现eggs文件。
widows机器上安装cmder,
执行命令:
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider