python编程快速上手(持续更新中…)
python爬虫从入门到精通
文章目录
1.Scrapyd介绍
scrapyd是一个用与部署和运行scrapy爬虫的程序,它准许你通过JSONAPI来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行他们
所谓JSON API本质就是post请求webapi
2.Scrapyd安装
scrapyd服务
pip install scrapyd
scrapyd客户端:
pip install scrapyd-client
3.启动Scrapyd服务
安装完成后,在python安装目录的Scripts的文件下有一个scrapyd.exe。
运行
scrapyd
可通过访问http://127.0.0.1:6800,进入一个很简单的页面,表示服务开启了,
4.项目部署
4.1配置需要部署的项目
4.2部署爬虫
scrapyd-deploy ic -p itcast
4.3管理Scrapy项目
页面上获取,修改project,spider
curl http://localhost:6800/schedule.json -d project=itcast -d spider=itcast
停止
curl http://localhost:6800/cancel.json -d project=itcast -d job=06b8af75567611ec9094103d1cd2748a
4.4使用requests模块控制scrapy项目
4.5 scarpyd其它webapi
curl http://localhost:6800/listprojects.json (列出项目)
curl http://localhost:6800/listspiders.json?project=myspider (列出爬虫)
curl http://localhost:6800/listjobs.json?project=myspider (列出job)
curl http://localhost:6800/cancel.json -d project=myspider -d job=tencent (终止爬虫,该功能会有延时或不能终止爬虫的情况,此时可用kill -9杀进程的方式中止)
scrapyd还有其他webapi,百度搜索了解更多