1 所需库安装
pip3 install scrapy
pip3 install scrapyd
pip3 install scrapyd-client
pip3 install scrapy-redis
pip3 install SpiderKeeper
2 将项目部署到scrapyd
在scrapy项目中 创建一个scrapy.cnf 文件
[deploy:部署名(部署名可以自行定义)]
url = http://localhost:6800/
project = 项目名(创建爬虫项目时使用的名称)
参考:
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.org/en/latest/deploy.html
[settings]
default = china.settings
[deploy:demo]
url = http://localhost:6800/
project = china
注意:把[deploy]这里改为[deploy:demo],这里是命名为demo,命名可以任意怎么都可以,只要能标识出来项目就可以
生产环境中,一般scrapyd是部署在服务器,而我们一般会从本地直接发送到服务器端,这时 查找 default_scrapyd.conf 找到bind_address 设置为
bind_address = 0.0.0.0
然后部署项目:
在scrapy项目路径下执行
scrapyd-deploy 部署名 -p 项目名称
查看 scrapyd 是否启动 ip:6800
若没启动 则需要进入到写好的scrapy项目路径中,启动scrapyd
python@ubuntu:~$ scrapyd 即可
3 部署项目到spiderkeeper上
进入项目文件路径下 执行如下命令 output.egg 是项目部署名 需要根据自己实际情况修改项目名 从而生成egg 文件
scrapyd-deploy --build-egg output.egg
启动 spiderkeeper
python@ubuntu:~$ spiderkeeper
注意执行命令后 找到用户名与密码
SpiderKeeper startd on 0.0.0.0:5000 username:admin/password:admin with scrapyd servers:http://localhost:6800
登陆
ip:5000登陆页面
此时就可创建页面管理爬虫