1. pip install scrapyd
验证是否安装成功:
cmd: scrapyd
浏览器: 127.0.0.1:6800
部署爬虫时cmd要一直执行着scrapyd,否则会导致浏览器无法访问和部署时网络拒绝
2. pip install scrapyd-client
2.1. python\Scripts\ 目录下新建scrapyd-deploy.bat文件,内容如下:
@echo off
F:\python\python.exe F:\python\Scripts\scrapyd-deploy %*
验证是否安装成功:
进入爬虫项目带scrapy.cfg文件的目录,cmd执行scrapyd-deploy,出现:
Unknown target: default 即代表成功
3. 打开scrapy.cfg,url行解除注释,并设置部署名称:
[deploy:lagou]
url = http://localhost:6800/
project = lagou_spider
验证是否成功:
目录下执行:scrapyd-deploy -l ,可以看到设置的名称
4 .把scrapy项目打包上传部署到scrapyd服务端:
命令: scrapyd-deploy 部署名称 -p 项目名称
scrapyd-deploy lagou -p lagou_spider 提示如下代表成功,如网络拒绝访问,是没开scrapyd,cmd执行即可
Packing version 1538714880
Deploying to project "lagou_spider" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "DESKTOP-KT5UTV0", "status": "ok", "project": "lagou_spider", "version": "1538714880", "spiders": 1}
5 .安装curl,开始爬取:
5.1 https://curl.haxx.se/download.html 下载最新的即可
5.2 下载后解压到一个目录中
5.3 把该目录添加到环境变量path中
验证是否成功:
cmd中执行: curl --help
6. curl命令:
开始爬取:curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称
curl http://localhost:6800/schedule.json -d project=lagou_spider -d spider=lagou 提示如下代表成功:
{"node_name": "DESKTOP-KT5UTV0", "status": "ok","jobid":"dcb0a8ccc85411e891fd201a06947bdb"}
停止爬取:
curl http://localhost:6800/cancel.json -d project=项目名称 -d job=jobid
删除爬虫:
curl http://localhost:6800/delproject.json-d project=项目名称
scrapyd中有多少项目:
curl http://localhost:6800/listprojects.json
显示指定scrapy项目中有多少爬虫:
curl http://localhost:6800/listspiders.json?project=项目名称