解决Scrapy性能问题——案例五（Item并发太多导致溢出）

最新推荐文章于 2024-08-07 08:51:51 发布

bluespacezero

最新推荐文章于 2024-08-07 08:51:51 发布

阅读量8.3k

点赞数 4

分类专栏： scrapy 网络爬虫

本文链接：https://blog.csdn.net/Q_AN1314/article/details/51262011

版权

本文分析了Scrapy爬虫因每个请求产生大量Item导致性能下降和内存溢出的问题。通过调整并发设置，观察性能曲线，发现性能瓶颈可能在于CPU利用率过高或内存限制。解决方案包括降低并发数减轻CPU负担，或增加以加速pipeline处理，确保系统吞吐量匹配。若仍无法优化，需检查整个系统的支撑能力。

摘要由CSDN通过智能技术生成

症状：爬虫对于每个Response都产生了多个Item，系统的吞吐量比期望的要低，并且可能会出现和前一个案例相同的下载器开/关现象。

示例：这里我们假设有1000个请求，每个返回的页面有100个Item，响应时间为0.25s，Item在pipeline中的处理时间为3s。分别把CONCURRENT_ITEMS设置成从10到150的值来运行爬虫：

for concurrent_items in 10 20 50 100 150; do
time scrapy crawl speed -s SPEED_TOTAL_ITEMS=100000 -s \
SPEED_T_RESPONSE=0.25 -s SPEED_ITEMS_PER_DETAIL=100 -s \
SPEED_PIPELINE_ASYNC_DELAY=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

bluespacezero

关注关注

4
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

scrapy垂直爬取及多个item下载问题(爬取某个写真网)

linershigebaobao的博客

06-28

968

利用scrapy爬虫时我们经常会遇到列表页可以爬取一些信息，详情页又可以爬到一些信息。同时详情页的url需要在列表页请求之后才可以获得。因此就需要垂直爬取，也就是先请求获得详情页的html，解析出详情页后再去请求以获得详情页的内容。同时，如果此时需要保存一些数据，如：列表页保存几个数据，详情页也需要保存几个数据，此时就需要设置多个item来获得。因此，本文记录了遇到垂直爬取与多个item保存并且下载某个item中内容的方法。 1 垂直爬取垂直爬取其实比较简单，主要是就是利用yield ...

scrapy——运行多个item文件

qq_30305565的博客

12-04

932

在使用scrapy保存文件时我们有可能会遇到保存多个数据到不同的文件中，这里我们可以设置多个items，来进行保存下面时代码` from shares.items import New_spider,SharesItem class SharesPipeline(object): def process_item(self, item, spider): if isins...

参与评论您还未登录，请先登录后发表或查看评论

Python 爬虫入门（十一）：Scrapy高级应用之并发与分布式「详细介绍」

最新发布

blues_C的博客

08-07

1355

欢迎来到“Python 爬虫入门”系列文章。在前面的文章中，我们已经学习了如何使用 Scrapy 来构建基本的爬虫项目。本篇文章将深入探讨 Scrapy 的高级应用，特别是如何实现并发爬取和分布式爬取。并发爬取和分布式爬取是提升爬虫效率的两大关键技术。并发爬取允许我们同时发出多个请求，大幅提高爬取速度；分布式爬取则让我们能够将爬取任务分散到多个机器上执行，从而处理大规模数据的抓取任务。

scrapy使用多个item以及指定item进行json输出

zhan006的博客

11-15

6714

老板给布置了个任务让我爬取公司职员名单及照片，通过scrapy可以很轻易的分别完成这两样工作，然而我想要在一个scrapy项目中完成这两个项目遇到了些麻烦，一是使用imagepipeline需要额外定义item中的image_url images属性，且爬取职员名单和爬区职员照片是分别在两个parse函数中进行的，这样对item的赋值会出现问题，因为在两个函数中相当于定义了两个item。二是我需要...

Scrapy多个spider时item和PIPELINES的设置

Crryg_Gpc的博客

05-03

489

Scrapy多个spider时item和PIPELINES的设置：一.同时运行多个spider 在项目目录下创建crawl.py文件，代码如下： from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings runs = CrawlerProcess(get_project_settings()) runs.crawl("zt_ls")//spider1 name runs

Scrapy多个spider情况下的pipeline、item设置

初一的博客

05-21

5060

Scrapy中多个spider的情况：一、Scrapy只存在一个Spider(正常情况)。 items设置：注：我将数据库操作写在item中，当spider中yield item时，就将数据库方法传入到pipelines中，这样pipeline中比较简洁。 pipelines设置： settings设置：二、Scrapy中多个spider，存入同一个数据库不同的表中如下图，在一...

解决Scrapy性能问题——案例四（响应太多导致溢出）

04-26

7001

症状：下载器几乎是在满负荷工作，然后过一会就关闭了。然后一直重复这样，而scaper占用的内存很多。示例：这里我们和之前的设置是一样的（也使用了treq），但是响应的大小被设置成了120kb的HTML。正如你所看到的，它一共花费了31s而不是20s：$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=1000 -s SPEED_T_RESPONSE=0.25

解决Scrapy性能问题——案例二（含有阻塞的代码）

04-26

6317

症状：系统非常慢，与期望的相差很大，并且当你修改CONCURRENT_REQUESTS的值的时候，速度并没有发生变化。下载器看起来几乎是空的（比CONCURRENT_REQUESTS的值要小），scraper中只有少量一些Response对象。示例：你可以使用这两个设置项（爬虫代码见这里）：SPEED_SPIDER_BLOCKING_DELAY和SPEED_PIPELINE_BLOCKING_DEL

解决Scrapy性能问题——案例六（下载器中请求太少）

04-28

6021

症状：增加了CONCURRENT_REQUESTS，但是下载器并没有得到充分的利用，调度器也是空的。示例：首先来运行一个没有这种问题的例子，把响应时间设置成1s，这样可以简化下载器吞吐量的计算：T = N/S = N/1 = CONCURRENT_REQUESTS。$ time scrapy crawl speed -s SPEED_TOTAL_ITEMS=500 \ -s SPEED_T_RESP

解决Scrapy性能问题——案例三（下载器中的“垃圾”）

04-26

3722

症状：系统的吞吐量比较期望的要小，并且下载器中的Request对象有时看起来比CONCURRENT_REQUESTS还要多。示例：我们使用0.25秒的下载延迟来模仿下载1000个网页，默认的并发水平是16个，根据前面的公式，大概需要花19s的时间。我们在一个pipeline中使用crawler.engine.download()来发起一个额外的HTTP请求到一个假的API，这个请求的响应需要1s的

（3）Scrapy的Items（项目）

wzk153的博客

08-12

1458

通常抓取的目标源一般都是非结构化来源，例如网页HTML等。我们需要从中提取结构化数据（解析数据）。Spider（蛛蛛）可以将提取的数据返回为Item（项目）对象，即定义键值对的Python对象。Scrapy支持多种类型的Item。创建Item时，您可以使用所需的任何类型的Item对象接收解析数据。.........

scrapy 两类item_scrapy item的详细讲解

weixin_36207513的博客

01-17

674

首先要明确要获取的目标内容然后编写items 文件：定义Item非常简单，只需要继承scrapy.Item类，并将所有字段都定义为scrapy.Field类型即可示例：import scrapyclass Product (scrapy.Item):name = scrapy.Field()price = scrapy.Field()stock = scrapy.Field()last...

scrapy 两类item_爬虫：Scrapy笔记- 完整示例

weixin_30899023的博客

01-17

220

原标题：爬虫：Scrapy笔记- 完整示例这篇文章我们通过一个比较完整的例子来教你使用Scrapy，我选择爬取虎嗅网首页的新闻列表。这里我们将完成如下几个步骤：创建一个新的Scrapy工程定义你所需要要抽取的Item对象编写一个spider来爬取某个网站并提取出所有的Item对象编写一个Item Pipline来存储提取出来的Item对象Scrapy使用Python语言编写，如果你对这门语言还不熟...

一文带你玩转深度学习：神经网络基础知识、环境配置、theano、TensorFlow

CSDN能力认证官方博客

07-02

494

Python爬虫的N种姿势，异步，并发，scrapy效率比较

u013444182的博客

08-12

2531

问题的由来前几天，在微信公众号（Python爬虫及算法）上有个人问了笔者一个问题，如何利用爬虫来实现如下的需求，需要爬取的网页如下（网址为：https://www.wikidata.org/w/index.php?title=Special:WhatLinksHere/Q5&limit=500&from=0）：我们的需求为爬取红色框框内的名人（有500条记录，图片只展示了一部分）的名字以及其介绍，关于其介绍，点击该名人的名字即可，如下图：这就意味着我们需要爬取5

python爬虫并发_Python并发爬虫常用实现方法解析

weixin_28895791的博客

02-04

829

在进行单个爬虫抓取的时候，我们不可能按照一次抓取一个url的方式进行网页抓取，这样效率低，也浪费了cpu的资源。目前python上面进行并发抓取的实现方式主要有以下几种：进程，线程，协程。进程不在的讨论范围之内，一般来说，进程是用来开启多个spider，比如我们开启了4进程，同时派发4个spider进行网络抓取，每个spider同时抓取4个url。所以，我们今天讨论的是，在单个爬虫的情况下，尽可能...

02-27 提高scrapy爬取效率的方法

weixin_46400833的博客

02-27

907

1、增加并发（增加并发线程数） scrapy默认开启的线程为32个，可以适当增加。在setting文件中修改为 100 2、降低日志级别在运行scrapy时会有大量日志信息输出，为了减少日志信息的输出，降低CPU的使用率，可以设置输出错误日志 LOG_LEVEL='ERROR' 或者 'INFO' 3、禁止cookie 如果不是真的需要cookie，则在爬取数据时可以禁止cookie，从而减少CPU的使用率。在 setting中写 COOKIES_ENABLED=False 4、禁止重试：对

python模块之Scrapy爬虫框架

局外人LZ的博客

10-10

1400

Scrapy 是一个用于爬取网站数据的强大的开源 Python 框架。它提供了一个高级的抓取和数据提取工具集，使您能够快速、灵活地构建和扩展网络爬虫。强大的功能：Scrapy 提供了一套完整的工具和功能，包括请求调度、数据提取、数据存储、数据处理和管道等。它支持异步处理、并发请求、代理、用户代理池、自动限速等功能，使得爬取和处理大规模数据变得更加高效和灵活。可扩展性：Scrapy 的架构设计非常灵活，允许您通过编写扩展和中间件来自定义和扩展其功能。

Python Scrapy爬虫实战：问题解决与ElasticSearch应用

本文是一篇详细的指南，教你如何使用Python的Scrapy框架编写一个...本文不仅提供了一个实战案例，还包含了许多解决常见问题的方法和技巧，对于想要学习Python爬虫并使用Scrapy框架的朋友来说，是一份宝贵的参考资料。