kafka的消息数据积压处理方案详解（两个方向）

枫锦旧曾谙

已于 2022-11-05 23:11:02 修改

阅读量5.6k

点赞数 3

分类专栏：大数据文章标签： kafka 分布式大数据

于 2022-10-31 17:03:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ruiqu1650914788/article/details/127619233

版权

大数据专栏收录该内容

12 篇文章 0 订阅

订阅专栏

（1）直接介绍一下处理方案。

1.首先，我们需要判断到底是kafka消费能力不足的问题还是下游数据处理不及时的问题。

2.如果是kafka消费能力不足的问题，则可以考虑增加Topic的分区数，并且同时提升消费组的消费者数量，消费者数=分区数。（两者缺一不可）

分区数大于消费者消费数量时，一个消费者消费几个分区，消费速度会变慢。但分数区小于消费者组消费数量时，会造成部分消费者没有消费，浪费资源。所以最优解就是消费者数量等于分区数。

3.如果是下游的数据处理不及时：提高每批次拉取的数量。每批次拉取的数据过少（拉取的数据/处理时间<生产速度），使处理的数据小于生产的数据，也会造成数据积压。

（2）介绍一下出现问题的原因。

1.kafka的结构如下：

（1）Producer ：消息生产者，就是向kafka broker发消息的客户端；

（2）Consumer ：消息消费者，向kafka broker取消息的客户端；

（3）Consumer Group （CG）：消费者组，由多个consumer组成。消费者组内每个消费者负责消费不同分区的数据，一个分区只能由一个消费者消费；消费者组之间互不影响。所有的消费者都属于某个消费者组，即消费者组是逻辑上的一个订阅者。

（4）Broker ：一台kafka服务器就是一个broker。一个集群由多个broker组成。一个broker可以容纳多个topic。

（5）Topic ：可以理解为一个队列，生产者和消费者面向的都是一个topic；

（6）Partition：为了实现扩展性，一个非常大的topic可以分布到多个broker（即服务器）上，一个topic可以分为多个partition，每个partition是一个有序的队列；

（7）Replica：副本，为保证集群中的某个节点发生故障时，该节点上的partition数据不丢失，且kafka仍然能够继续工作，kafka提供了副本机制，一个topic的每个分区都有若干个副本，一个leader和若干个follower。

（8）leader：每个分区多个副本的“主”，生产者发送数据的对象，以及消费者消费数据的对象都是leader。

（9）follower：每个分区多个副本中的“从”，实时从leader中同步数据，保持和leader数据的同步。leader发生故障时，某个follower会成为新的leader。

2.kafka消费能力不足的问题，要在kafka集群里面增加分区数。

3.如果是下游的数据处理不及时，这考虑增加拉取数，在kafka集群到消费者组部分。

枫锦旧曾谙

关注

3
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
kafka的消息数据积压处理方案详解（两个方向）

通过架构图展示kafka的消息数据积压处理方案，两个原因，两个思路。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。