scrapy:同时运行多个爬虫

最新推荐文章于 2024-05-19 18:04:45 发布

lcqin111

最新推荐文章于 2024-05-19 18:04:45 发布

阅读量1.3k

点赞数

分类专栏：爬虫 python

本文链接：https://blog.csdn.net/lcqin111/article/details/109559564

版权

python 同时被 2 个专栏收录

78 篇文章 0 订阅

订阅专栏

爬虫

7 篇文章 0 订阅

订阅专栏

有的时候需要在scrapy工程里面运行多个爬虫，试用了网上两种方法。

运行环境：scrapy:2.3.0 + python3.8

第一种：

# coding:utf-8

from scrapy import cmdline
cmdline.execute("scrapy crawl spider1".split())
cmdline.execute("scrapy crawl spider2".split())

无效，只能运行第一个。

第二种：

https://www.cnblogs.com/rwxwsblog/p/4578764.html

以上是链接，使用的self.crawler_process和自定义命令的方法，亲测有效，但是这些爬虫是同步运行的，数量多延迟高的情况下，链接会发生超时重置的情况。

https://docs.scrapy.org/en/master/topics/practices.html#run-scrapy-from-a-script在官方文档看到可以通过链接延迟项依次运行所有爬虫，这种方式或许可以避免以上问题。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lcqin111

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Crystal:一个基于scrapy+selenium+phantomjs的爬虫程序，用于抓取多个学校的学术报告信息

05-12

Crystal 一个基于scrapy+selenium+phantomjs的爬虫程序，用于抓取多个学校的学术报告信息

scrapy 多个爬虫运行

weixin_30655569的博客

09-27

208

from scrapy import cmdline import datetime import time import os import scrapy from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings os.environ....

参与评论您还未登录，请先登录后发表或查看评论

scrapy运行多个爬虫

zouzhe121的博客

10-24

940

　一、创建spider　　1、创建多个spider，scrapy genspider spidername domain...

scarpy框架如何在crawl中正确传递自定义参数，scrapy.cmdline的execute为什么不能在while True中无限循环，execute换成crawl 方法

朴拙科技的博客

03-14

742

scrapy.cmdline的execute阻塞函数类似于subprocess 模块中的 subprocess.run() 或 subprocess.Popen()在 Python 中，execute 函数通常是指 subprocess 模块中的 subprocess.run() 或 subprocess.Popen() 函数，用于执行一个外部命令并等待其完成。当 subprocess.run() 或 subprocess.Popen() 执行完成后，程序会停止因为主程序的执行已经结束。

【Python】手把手教你使用Scrapy同时运行多个爬虫

qq_42595835的博客

12-27

2625

使用scrapy同时运行多个爬虫

Scrapy顺序执行多个爬虫

ljh574649119的专栏

05-19

545

使用subprocess按照顺序执行多个爬虫，新建一个start.py文件，输入一下内容，第一种：bat方式运行。

Scrapy-如何同时运行多个爬虫及定时问题

mrbone11的博客

09-06

2065

同时运行多个爬虫查到的主要有两种方法。第一种是在项目内创建command文件夹，添加改写后的crawl.py文件，并在settings.py进行相关配置实现的，该方法相当于创建了一个自定义的指令，启动多个爬虫时，在cmd命令行中执行新创建的指令即可。详细步骤见这里。第二种方法通过scrapy.crawler.CrawlerProcess实现，本人使用的就是这种方法。官方文档中，scrapy.c...

scrapy一次启动多个爬虫(cmdline和subprocess两种方式)

菜鸟也要高飞

08-09

2673

scrapy一次启动多个爬虫scrapy一次启动多个爬虫通过subprocess.Popen实现多个爬虫的启动subprocess.Popen顺序启动爬虫subprocess.Popen并行执行爬虫为什么不直接用scrapy.cmdline.execute或者os.system来直接执行？ scrapy一次启动多个爬虫有时候我们会写一些比较通用的爬虫，然后通过传递不同参数实现不同网站或者不同页面类型的爬取。这种情况下，要启动多个爬虫，我们有两种方式：通过继承cmdline来自定义crawlall来实

可视化的Scrapy爬虫管理平台

08-22

然而，对于大型项目或团队协作，管理多个Scrapy爬虫可能会变得复杂。这就是可视化的Scrapy爬虫管理平台发挥作用的地方。这个项目旨在提供一个用户友好的界面，帮助开发者更有效地组织、监控和运行他们的Scrapy爬虫。...

mini-scrapy:基于gevent的mini-scrapy爬虫框架

05-04

**迷你Scrapy（mini-scrapy）：基于Gevent的轻量级爬虫框架** ...通过实践mini-scrapy，开发者可以深入理解Scrapy框架的工作原理，同时掌握Gevent的协程编程技巧，这对于构建高效、可扩展的网络爬虫项目非常有帮助。

探索Scrapy的奥秘：Python网络爬虫框架全解析

最新发布

08-20

这使得Python被认为是一种易于学习的语言，同时具备强大的功能，适合初学者和经验丰富的程序员。 Python的特点包括： 1. **动态类型系统**：变量在运行时被赋予类型，这提供了灵活性，但也要求开发者注意类型相关...

Python Scrapy框架：通用爬虫之CrawlSpider用法简单示例

09-17

最后，使用以下命令启动爬虫： ```bash scrapy crawl get_quotes ``` 执行完此命令后，Scrapy将会根据定义的规则自动抓取页面，并将数据存储到相应的输出格式中。 #### 四、扩展阅读除了上述基本用法之外，还...

一个使用scrapy和redis搭建的分布式爬虫搜索引擎

02-23

2. **分布式锁（Distributed Locks）**: 在多节点环境中，防止同一URL被多个爬虫实例同时抓取，可以通过Redis的SetNX命令实现分布式锁。 3. **中间件通信（Middleware Communication）**: Redis可以作为一个消息...

scrapy同时启动多个爬虫

xu_xuekai的博客

04-10

5861

　一、创建spider　　1、创建多个spider，scrapy genspider spidername domainscrapy genspider CnblogsHomeSpider cnblogs.com　　通过上述命令创建了一个spider name为CnblogsHomeSpider的爬虫，start_urls为http://www.cnblogs.com/的爬虫　　2、查看项目下有几...

Scrapy同时启动多个爬虫

sinat_40968110的博客

10-28

511

Scrapy多爬虫并行问题：当遇到针对同一请求网站URL时，根据不同的参数不想多次新建scrapy项目。 1、在sprider同级目录下建立commons文件夹（自定义） 2、新建crawlall.py from scrapy.commands import ScrapyCommand from scrapy.utils.project import get_project_settings class Command(ScrapyCommand): requires_project = T

scrapy多个爬虫同时运行

every place is the center of the universe

08-16

523

运行爬虫 import datetime as dt #同时爬取 from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings file_name_A="爬虫A"+dt.datetime.now().strftime('%Y-%m-%d') +".json" file_name_B="爬虫B"+dt.datetime.now().strftime('%Y-%m-%d') +".

scrapy启动多spider

1-|运维深似海

04-15

212

【代码】scrapy启动多spider。

Python: random模块的随即取样函数：choice()，choices()，sample()