爬虫部署总结

安装相关库

1,爬虫的部署需要用到scrapyd,scrapyd-client模块
安装命令:pip3 install scrapyd,pip3 install scrapyd-client
安装完成后用scrapyd-deploy -h命令来检验是否安装成功
此外,还需要修改scrapy项目目录下的scrapy.cfg配置文件
首先需要修改scrapyd.egg (项目的配置文件)

[deploy]

url=http://localhost:6800

project=项目名称

部署类型 (本地部署,远端部署)
我们来说下本地的部署,两者方式相同

本地部署
项目部署相关命令: 注意这里是项目的名称而不是工程的名称

scrapyd-deploy -p <项目名称>

也可以指定版本号

scrapyd-deploy -p <项目名称> --version <版本号>

相关运行命令:
启动运行
$ curl http://localhost:6800/schedule.json -d project=myproject -d spider=somespider

暂停

curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444

delproject.json 删除项目及其所有上载版本。

curl http://localhost:6800/delproject.json -d project=myproject

远端部署
(远端部署大致和本地部署相同,只介绍部分不同内容)
远端部署需要以下几个步骤------>>>>>>
1,主要配置 下载的库
-----配置python环境(ubuntu自带python3环境))
-----安装pip3:sudo apt install python3-pip
------安装scrapy:pip3 install scrapy -i https://pypi.douban.com/simple/
如果安装失败添加如下依赖:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev

安装scrapyd: pip3 install scrapyd
安装scrapyd-client: pip3 install scrapyd-client
添加爬虫运行的三方库(不必要):
------pip3 install requests
-------pip3 install pymysql
-------pip3 install pymongodb

2,修改scrapyd的配置文件,允许外网访问

查找配置文件的路径:find -name default_scrapyd.conf
修改配置文件: sudo vim 路径
注意:此时启动scrapayd服务6800端口还不能访问,需要把ind_address改为ind_address = 0.0.0.0

3.要去服务器安全组配置
进入服务安全组选项添加安全组
添加成功后,点击修改规则,添加如下信息(配置目的:允许访问6800端口)
完成后返回到云主机菜单,找到配置安全组菜单,跟换为刚才添加的安全组
之后跟上面的部署步骤一样

Gerapy使用
1,gerapy的作用,为什么要用到它?
gerapy介绍:
Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发,Gerapy 可以帮助我们:

更方便地控制爬虫运行
更直观地查看爬虫状态
更实时地查看爬取结果
更简单地实现项目部署
更统一地实现主机管理
提供在线编辑代码功能

2,安装和使用
安装命令:pip3 install gerapy
安装完之后我们使用gerapy查看是否安装成功
初始化gerapy init
执行以后,便会在桌面下生成一个名字为 gerapy 的文件夹,接着进入该文件夹,可以看到有一个 projects 文件夹
初始化数据库,执行完以后开始执行如下命令:

1.进入cd到gerapy文件夹下 cd gerapy

2.执行(会在gerapy目录下生产一个sqlite数据库,同时创建数据表,数据库中会保存各个主机配置信息、部署版本等)

gerapy migrate

3.运行gerapy服务

gerapy runserver

4.访问

http://127.0.0.1:8000

然后会看到如下界面(上述流程没有错误的话)
在这里插入图片描述
然后在主机管理中添加个台主机的Scrapyd运行地址和端口,并设置名称,然后个台主机则会出现在主机列表中,Gerapy会监控个台主机的运行状态。
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值