scrapyd+SpiderKeeper实现爬虫的管理 centos7 部署

最新推荐文章于 2024-03-23 09:30:22 发布

了尘自无心

最新推荐文章于 2024-03-23 09:30:22 发布

阅读量379

点赞数

本文链接：https://blog.csdn.net/adcadc123456789/article/details/106629568

版权

1 所需库安装

pip3 install scrapy
pip3 install scrapyd
pip3 install scrapyd-client
pip3 install scrapy-redis
pip3 install SpiderKeeper

2 将项目部署到scrapyd

在scrapy项目中 创建一个scrapy.cnf 文件
[deploy:部署名(部署名可以自行定义)]
url = http://localhost:6800/
project = 项目名(创建爬虫项目时使用的名称)


参考:
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.org/en/latest/deploy.html

[settings]
default = china.settings

[deploy:demo]
url = http://localhost:6800/
project = china
注意：把[deploy]这里改为[deploy:demo]，这里是命名为demo，命名可以任意怎么都可以，只要能标识出来项目就可以
生产环境中，一般scrapyd是部署在服务器，而我们一般会从本地直接发送到服务器端，这时 查找  default_scrapyd.conf    找到bind_address  设置为
bind_address = 0.0.0.0



然后部署项目：
在scrapy项目路径下执行
scrapyd-deploy 部署名 -p 项目名称

在这里插入图片描述
查看 scrapyd 是否启动 ip:6800
若没启动则需要进入到写好的scrapy项目路径中，启动scrapyd
python@ubuntu:~$ scrapyd 即可

3 部署项目到spiderkeeper上

进入项目文件路径下 执行如下命令   output.egg  是项目部署名  需要根据自己实际情况修改项目名  从而生成egg 文件
scrapyd-deploy --build-egg output.egg

启动 spiderkeeper

python@ubuntu:~$ spiderkeeper
注意执行命令后 找到用户名与密码    
SpiderKeeper startd on 0.0.0.0:5000 username:admin/password:admin with scrapyd servers:http://localhost:6800

登陆
ip:5000登陆页面

在这里插入图片描述
此时就可创建页面管理爬虫