scrapyd部署爬虫项目到LINUX服务器

最新推荐文章于 2023-05-16 14:55:09 发布

weixin_34068198

最新推荐文章于 2023-05-16 14:55:09 发布

阅读量625

点赞数

文章标签：爬虫 python 操作系统

原文链接：https://segmentfault.com/a/1190000017377812

版权

1，首先把scrapy爬虫项目上传到服务器
我的服务器架设在公司内网里。所以在这里使用WinSCP作为上传工具。
使用WinSCP上传scrapy项目到服务器

2，修改项目的配置文件scrapy.cfg
修改scrapy.cfg

给爬虫项目指定分组，具体方法是在deploy:之后添加部署名，比如图中的项目，部署名是sf。
部署名会在后面的部署项目环节用到。
打开url行的注释，并且配置一台安装scrapyd的服务器

3，使用scrapyd-deploy部署爬虫项目到linux
在命令行输入 scrapyd-deploy -l 可以显示当前部署的项目

scrapyd-deploy -l

4，执行打包命令，完成项目部署
scrapyd-deploy 部署名 -p 项目名
使用scrapyd-deploy 完成爬虫项目部署

5，然后编译爬虫项目
依然使用scrapyd-deploy命令完成
scrapyd-deploy --build-egg 项目编译文件.egg

6，在spiderkeeper中新建项目
点击projects按钮，
选择create project选项
spiderkeeper创建新项目

随后弹出遮罩框，然后给新项目起名字，点击create按钮。新项目创建创建完成。

7，部署项目的egg文件
想要爬虫程序真正进行抓取起来，还有一步。就是将egg文件部署到项目上。
选择egg文件，部署文件
部署项目egg文件

至此，scrapyd部署爬虫项目就结束了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_34068198

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Python爬虫Scrapyd项目部署详细教程--最完整版本

景天科技苑

02-02

1万+

scrapyd是一个用于部署和运行scrapy爬虫的程序，它由 scrapy 官方提供的。它允许你通过JSON API来部署爬虫项目和控制爬虫运行。所谓json api本质就是post请求的webapi。使用scrapyd部署，可以给更多的人去使用选择一台主机当做服务器，安装并启动 scrapyd 服务。再这之后，scrapyd 会以守护进程的方式存在系统中，监听爬虫地运行与请求，然后启动进程来执行爬虫程序。

含有大量爬虫的scrapy项目部署到Linux服务器并设置定时启动

WNxiaoning1的博客

02-10

2440

前言当scrapy爬虫项目中含有大量爬虫时（几百甚至更多），我们使用网上所介绍的scrapy同时启动多个爬虫方法会造成因端口不足而使爬虫运行失败。所以当我们的项目中含有大量爬虫时，可以考虑逐个运行爬虫，这样虽然运行时间长了一些但是可以令所有的爬虫都能运行。一、配置环境安装爬虫所需要的一些库，这里不再详述。我们主要讲述爬虫的部署以及如何让爬虫在服务器上定时自动运行。二、编写爬虫运行程序在s...

参与评论您还未登录，请先登录后发表或查看评论

有关爬虫在linux下的部署

anyi234234234的博客

07-04

280

1.启动scrapyd的服务：scrapyd（必须处于开启状态） 2.另开一个终端，进入爬虫目录：　　编写配置：vi scrapy.cfg ，进入scrapy.cfg后，在[deploy]里面加入名字，如：[deploy:news]，再将url前面的#,去掉。保存退出（按Esc后输入冒号 : ,写入wq!）。 3.进入到scrapy项目根目录，执行：scr...

20-Scrapy项目部署到Linux服务器

chitian6393的博客

07-10

626

1.服务器 # 查看Linux服务器版本 # lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch Distributor ID: CentOS Desc...

Linux 部署 scrapydweb

chang995196962的博客

05-16

726

【代码】Linux 部署 scrapydweb。

Scrapyd部署爬虫项目

zhaobig的博客

11-29

7348

Scrapyd部署爬虫项目 1、新建虚拟环境(方便管理)，在虚拟环境中安装scrapy项目需要使用到的包 mkvirtualenv--python=C:\python27\scripts\python.exe scrapySpider 新建虚拟环境进入虚拟环境使用pip将所需包安装完成 2、安装scrapyd模块，scrapyd模块是专门用于部署scrapy项目的，可以部署和管理sc

python之Scrapyd部署爬虫项目（使用虚拟环境）

Mrical的博客

03-22

2596

1、新建虚拟环境(方便管理)，在虚拟环境中安装scrapy项目需要使用到的包新建虚拟环境： mkvirtualenv --python=C:\python36\scripts\python.exe scrapySpider 进入虚拟环境使用pip将所需包安装完成2、打开命令行工具执行pip install scrapyd3、输入scrapyd启动scrapyd服务，在浏览器输入127.0.0.1:...

scrapyd的安装与部署

最新发布

07-13

部署爬虫项目到Scrapyd有两种方法。一种是通过修改`scrapy.cfg`文件，然后使用`scrapyd-deploy`命令打包并部署到指定的服务器。另一种方法是通过Scrapydweb的Web界面上传项目。定时任务可以借助cron在Linux系统中...

scrapy爬虫部署

weixin_30608131的博客

12-09

121

在开始之前先要吐槽一下CSDN，昨晚怀着激动得心情写下了我人生中的第一篇博文，今天审核通过后发现所有的图片都不见了，瞬间就不开心了。所以不得不又申请了博客园的账号，重新开始。前段时间一直研究通用爬虫，做的过程中也是各种问题，不过好在磕磕绊绊搞出点眉目，中间学到了不少东西，感觉互联网真的好神奇。但是接下来问题来了，写的爬虫不能老在自己机器上跑吧，如何部署到服务器上呢，然后就开始研究scrap...

linux下安装并运行scrapyd

集结号起花开万里的博客

04-23

568

linux下安装并运行scrapyd(python3及以上) 安装 pip3 isntall scrapyd 配置文件新建存放配置文件文件夹 mkdir /etc/scrapyd 编辑配置文件 vim /etc/scrapyd/scrapyd.conf 写入（[官网示例](https://scrapyd.readthedocs.io/en/stable/config.html)）： [scrapyd] eggs_dir = eggs logs_dir = logs items_dir =

linux定时scrapy,scrapyd部署scrapy项目及定时启动，SpiderKeeper(爬虫监控)

weixin_39836876的博客

05-14

314

scrapyd部署scrapy项目安装scrapyd　和scrapyd-clientpip install scrapydpip install scrapyd-client发布项目首先切换到项目的目录，scrapy.cfg记录了项目的配置信息├── scrapy.cfg #项目配置目录└── Test├── __init__.py├── __init__.pyc├── items.py├── m...

scrapy爬虫项目部署到linux上的步骤，虚拟环境创建，chrome浏览器安装+selenium

Argonum的博客

06-09

597

首先在你的文件夹中安装虚拟环境 sudo pip3 install virtualenv # 安装虚拟环境 sudo pip3 install virtualenvwrapper # 安装虚拟环境扩展包 vim /home/Argonum/.bashrc # 编辑自己文件夹下面的.bashrc文件，输入一下代码： # 按一下i进入编辑模式，按一下esc退出编辑模式，然后按：wq，是保存，：q！是强制退出 if [ -f /usr/local/bin/virtualenvwrapper.sh ]; t

scrapy linux环境部署记录

weixin_38859557的博客

01-14

191

安装scrapy失败：需要安装：sudo apt-get install openssl libssl-dev libbz2-dev sudo apt-get install python3 python-dev python3-dev \ build-essential libssl-dev libffi-dev \ libxml2-dev libxslt1-d...

Scrapy+Selenium爬取异步加载网页并部署到Linux-Debain服务器完整教程

焦糖呱呱子的博客

06-17

2232

Scrapy，爬虫，异步加载

在linux下安装并运行scrapyd

fishineye的专栏

06-01

471

系统：centos7.4 安装scrapyd：pip isntall scrapyd 因为我腾讯云上是python2与python3并存的所以我执行的命令是：pip3 isntall scrapyd 安装后新建一个配置文件：　　sudo mkdir /etc/scrapyd 　　sudo vim /etc/scrapyd/scrapyd.conf 写入如下内容：（给内容在https://scrapyd.readthedocs.io/en/stable/config.html可找到） [s

在linux服务器下部署python工程（爬虫）

weixin_30530939的博客

07-13

500

---恢复内容开始--- 这两天部署这个工程，真的是心力交瘁惹。如果有用到爬虫的话，python环境先配好，如果是 python3的话 beautifulsoup 可以参见 linux安装python3.6 及 beautifulsoup http://www.cnblogs.com/clover-xuqi/p/7155496.html = = 正题：简单来说，...

在linux上安装scrapyd

weixin_44675377的博客

11-07

235

借鉴博客：https://blog.csdn.net/anderslu/article/details/72354457

scrapyd服务器跑爬虫+爬虫可视化

duziea的博客

10-29

989

首先我们需要 pip install scrapyd scrapyd官方文档 scrapyd 是由scrapy 官方提供的爬虫管理工具，它可以管理多个项目，每个项目可以上传多个版本，但默认使用最新版。启动scrapyd scrapyd 部署项目 scrapyd-client官方文档 pip install scrapyd-client 配置项目下的scrapy.cfg deploy设...

使用scrapyd部署爬虫

03-26

Scrapyd是一个基于Twisted的Python爬虫部署工具，它可以帮助我们方便地管理和部署自己编写的爬虫程序。以下是使用Scrapyd部署爬虫的步骤： 1. 安装Scrapyd 可以使用pip命令安装Scrapyd： ``` pip install scrapyd ``` 2. 创建Scrapy项目在命令行窗口中输入以下命令，创建Scrapy项目： ``` scrapy startproject myproject ``` 其中myproject是项目名称。 3. 创建爬虫程序在myproject/spiders目录下创建一个爬虫程序，例如： ```python import scrapy class MySpider(scrapy.Spider): name = 'myspider' allowed_domains = ['example.com'] start_urls = ['http://www.example.com'] def parse(self, response): # 爬虫解析方法 pass ``` 这里创建了一个名为myspider的爬虫程序，它从http://www.example.com开始爬取数据。 4. 配置Scrapy项目修改myproject/settings.py文件，添加如下配置： ```python BOT_NAME = 'myproject' SPIDER_MODULES = ['myproject.spiders'] NEWSPIDER_MODULE = 'myproject.spiders' ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline': 1 } IMAGES_STORE = 'images' ``` 这里添加了一个名为ImagesPipeline的管道，用于下载图片，并将图片保存到images目录下。 5. 打包Scrapy项目在命令行窗口中进入Scrapy项目的根目录，使用以下命令打包Scrapy项目： ``` python setup.py sdist ``` 这时会在Scrapy项目的根目录下生成一个dist目录，其中包含了一个压缩包，例如myproject-0.1.tar.gz。 6. 部署Scrapy项目在命令行窗口中进入Scrapy项目的根目录，使用以下命令将Scrapy项目部署到Scrapyd服务器上： ``` scrapyd-deploy <target> -p <project> --version <version> ``` 其中，： - `<target>`是Scrapyd服务器的名称，例如default； - `<project>`是Scrapy项目的名称，例如myproject； - `<version>`是Scrapy项目的版本号，例如0.1。执行此命令后，Scrapyd会自动将Scrapy项目部署到Scrapyd服务器上，并生成一个新的项目版本。 7. 启动Scrapyd 在Scrapyd服务器上启动Scrapyd服务： ``` scrapyd ``` 这时可以在浏览器中访问http://localhost:6800/，查看Scrapyd服务是否正常运行。 8. 运行爬虫使用以下命令在Scrapyd服务器上运行爬虫程序： ``` curl http://localhost:6800/schedule.json -d project=myproject -d spider=myspider ``` 其中，myproject和myspider分别为你的项目名称和爬虫程序名称。运行此命令后，Scrapyd会在Scrapyd服务器上启动myspider爬虫程序，并开始爬取数据。在浏览器中访问http://localhost:6800/jobs，可以查看爬虫程序的运行状态。至此，使用Scrapyd部署爬虫的步骤已经完成。