Spark通过receiver方式消费kafka数据时数据积压问题

最新推荐文章于 2024-07-31 09:17:56 发布

天街小雨入江南

最新推荐文章于 2024-07-31 09:17:56 发布

阅读量2.4k

点赞数 1

分类专栏： kafka spark 文章标签： kafka spark receiver 数据积压

本文链接：https://blog.csdn.net/weixin_39911113/article/details/80268467

版权

spark 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

kafka

1 篇文章 0 订阅

订阅专栏

Receiver方式消费kafka数据积压问题

1.问题

在通过receiver方式接受kafka消息时，发现有大量消息在队列中阻塞最终导致spark任务执行失败。
经过排查发现，利用receiver方式来消费kafka的数据时可能会因为zk的group是首次创建或者有一段时间未消费，在程序启动的时候一次性读取进来大量的数据导致数据积压严重报错oom或者yarn资源不够而崩溃，可以通过设置最大批次的数据量来调节。

2.解决办法

这里可以通过一个参数来解决，receiver方式的数据积压问题。

  --conf spark.streaming.kafka.maxRatePerPartition=10000

限制每个批次读取进来的最大数据量，来平稳的读取积压的数据

3.怎么计算每个批次数据的数量

总数=maxRatePerPartition*partitions（分区数）*bachTime（批次时间，单位是s）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

天街小雨入江南

关注关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Spark Streaming 2.2.1 处理Kafka数据源的实战准备

段智华的博客

02-24

6366

Spark Streaming 2.2.1 处理Kafka数据源的实战准备Kafka是一种高吞吐量的分布式发布订阅消息系统，Spark Streaming读取Kafka数据支持二种方式：Receiver方式和No Receivers方式。（1）Receiver方式：Spark Streaming kafkautil使用createStream方法。（2）No Receivers方式：Spark S...

sparkstreaming对接kafka出现的数据积压问题

最新发布

没有伞的孩子必须努力奔跑！—小林

07-31

136

大家在日常开发中，是否处理过大批量消息积压的问题呢？它一般由于代码bug（比如消费逻辑处理有误）、或者生产者的生产速度大于消费者的消费速度（如大促、抢购等活动期间导致消息数量激增，或者消费者处理速度极慢），就可能导致生产环境出现百万、甚至千万的消息积压。那么，假设发生kafka百万消息堆积，如何解决呢？先排查是不是bug，如果是，要快速修复优化消费者代码逻辑临时紧急扩容，新建临时topic对于线上kafka 消息大量积压的问题，我总结了这几点：我们要做好监控和告警，

sparkStreaming消费kafka任务积压方案

前方的路在刚开始

02-08

1124

今天看了<<如何阅读一本书>> 作者是1900年代的人，1940年出版了此书。然而距离此书出版已经过去80年了，作者也早已不在人世，却给后世带来这么大的影响力。今天元宵节刚加完班，弄抵抗抗疫情相关的数据。吃饭的时候和家里人畅聊，突然产生感想。自己也得留点东西，存在于世上，当然不仅仅是精子。那就留一些文章吧。自己虽然不是什么名校硕博。但是从小就对这个世界充满好...

sparkstreaming处理kafka数据，数据积压问题解决方案

12-03

7201

https://blog.csdn.net/ntk1986/article/details/80755888

spark消费kafka产生数据堆积怎么处理_SparkStreaming读取Kafka的两种方式

weixin_39595621的博客

01-25

746

本文主要从以下几个方面介绍SparkStreaming读取Kafka的两种方式:一、SparkStreaming简介二、Kafka简介三、Redis简介(可用于保存历史数据或偏移量数据)四、SparkStreaming读取Kafka数据的两种方式五、演示Demo一、SparkStreaming简介可以参考这篇文章：SparkStreaming 详解二、Kafka简介可以参考这篇文章：Kafka...

Spark对Kafka两种连接方式的对比——Receiver和Direct

乔治大哥的博客

11-21

1220

在知乎 Flink 取代 Spark Streaming 的实战之路中，提到因此下面对两种方式进行详细说明一下。 Receiver方式 Receiver：接收器模式是使用Kafka高级Consumer API实现的。与所有接收器一样，从Kafka通过Receiver接收的数据存储在Spark Executor的内存中，然后由Spark Streaming启动的job来处理数据。然而默认配置...

sparkstreaming sparkstreaming与kafka整合（两种receiver方式）

a3125504x的博客

09-09

610

sparkstreaming两种receiver方式sparkstreaming语义sparkstreaming整合kafka的两种方式Receiver-based ApproachDirect Approach (No Receivers)Direct Approach下sparkstreaming整合kafka0.8Direct Approach下sparkstreaming整合kafka1.0 sparkstreaming语义 sparkstreaming有三种语义 At most once 一

streaming-kafka：streaming消费kafka数据

ll谢安生的博客

01-10

2016

Kafka-消费模型 High Level Consumer API 不需要自己管理offset 默认实现最少一次消息传递语义（At least once） comsumer数量大于 partiton数量，浪费。 comsumer数量小于 partiton数量，一个comsumer对应多个partiton 最好partiton数目是consumer数目的整数倍 Low Level Cons...

基于PySpark整合Spark Streaming与Kafka

pysense的博客

03-06

8840

本文内容主要给出基于PySpark程序，整合Spark Streaming和Kafka，实现实时消费和处理topic消息，为Python开发大数据实时计算项目提供基本参考。（后续将陆续给出基于Scala开发大数据实时计算项目的文章） 1 程序环境准备：虚拟机A：启动单实例kafka服务虚拟机B：运行PySpark程序在VM A，程序环境要求安装jdk1.8以上以及与kafka匹配版本的s...

Spark面对OOM问题的解决方法及优化总结

张小小凡

05-19

137

转载： http://blog.csdn.net/yhb315279058/article/details/51035631

Kafka导致OOM的排查经历

A_len的博客

08-18

2278

Kafka客户端使用不当导致OOM

Kafka中产生数据积压的原因以及解决方案

qq_43727170的博客

08-29

8915

Kafka中产生数据积压的原因以及解决方案。

Structured Streaming系列-4、集成 Kafka

不积跬步无以至千里，不积小流无以成江河

10-10

1020

Structured Streaming系列-4、集成 Kafka

sparkStreaming 处理kafka数据积压问题

weixin_44059731的博客

10-14

721

使用SparkStreaming集成kafka时有几个比较重要的参数： spark.streaming.stopGracefullyOnShutdown （true / false）默认fasle 确保在kill任务时，能够处理完最后一批数据，再关闭程序，不会发生强制kill导致数据处理中断，没处理完的数据丢失 spark.streaming.backpressure.enabled （true / false）默认false 开启后spark自动根据系统负载选择最优消费速率 spark.str..

SparkStreaming消费Kafka无法消费持续阻塞（无异常信息）

wunanliu的采坑日记

04-28

2720

产生背景：由于工作需要，目前现有查询业务，其他厂商数据库无法支持，高效率的查询响应速度，于是和数据总线对接，实现接入数据，自己进行数据结构化处理。技术选型：SparkStreaming和Kafka和ElasticSearch 本人集群：SparkStreaming 版本2.3，Kafka的Scala版本2.11-Kafka版本0.10.0.0 （Kafka_2.11-0.10.0.0.jar）消息总线集群：Kafka总线版本，Kafka_2.10-0.10.2.1.jar 由上述可...

SparkStreaming整合kafka——黑名单过滤

小白

08-20

850

import org.apache.kafka.clients.consumer.ConsumerConfig import org.apache.kafka.common.serialization.StringDeserializer import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies} import org.apache.spark.streaming.{Secon

spark streaming怎么实时消费kafka上的数据

05-10

Spark Streaming 可以通过 Kafka Direct API 或 Receiver API 来实时消费 Kafka 上的数据。使用 Kafka Direct API 的方式，需要引入 spark-streaming-kafka 相关的依赖，然后创建 Kafka Direct Stream，并指定 ...