scrapy 爬虫部署总结

一、安装scrapyd
主要有两种安装方式:
1.pip install scrapyd
从 https://github.com/scrapy/scrapyd 中下载源码, 运行python setup.py install 命令进行安装。
2.安装 scrapyd-deploy

主要有两种安装方式:
pip install scrapyd-client(安装的版本可能不是最新版本)
从 http://github.com/scrapy/scrapyd-client 中下源码, 运行python setup.py install 命令进行安装。
scrapyd的简单使用
1.运行scrapyd
运行命令:scrapyd

然后打开浏览器,输入ip加端口:127.0.0.1:6879

2.发布项目到scrapyd
来到待发布项目的文件夹下,发布前需要修改一下配置文件,打开scrapy.cfg文件;

1.首先去掉url前面的注释符号,url是scrapyd服务器的网址
2.然后project=tenCent为项目名称,可以随意起名
3.修改[deploy]为[deploy:100],表示把爬虫发布到名为100的爬虫服务器上,一般在需要同时发布爬虫到多个目标服务器时使用

运行命令:
scrapyd-deploy -p --version

Target:deploy后面的名称。可以为空

Project:自行定义名称,跟爬虫的工程名字无关。

Version:自定义版本号,不写的话默认为当前时间戳。

然后再刷新浏览器页面

3.创建运行爬虫任务
curl http://localhost:6879/schedule.json -d project=myproject -d spider=spider_name

然后点击浏览器界面的Jobs

scrapyd的控制API

所有的API都是通过http协议发送的请求,目前总共10个api

规则是:http://ip:port/api_command.json,有GET和POST两种请求

  1. daemonstatus.json
  2. addversion.json
  3. schedule.json
  4. cancel.json
  5. listprojects.json
  6. listversions.json
  7. listspiders.json
  8. listjobs.json
  9. delversion.json
    10.delproject.json

gerapy的作用和使用流程

Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们方便快捷的管理我们的爬虫等。

1.安装gerapy
pip install gerapy

2.初始化gerpay
在命令里输入gerapy init

3.使用命令进入gerapy
cd gerapy

4.进入文件夹后使用命令创建一个sqlite数据库
gerapy migrate

5)访问gerpay服务cmd命令为
gerapy runserver
访问http://127.0.0.1:8000
即可成功

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值