kafka消费者消费消息的流程

最新推荐文章于 2025-04-16 09:21:26 发布

健康平安的活着

最新推荐文章于 2025-04-16 09:21:26 发布

阅读量1.2w

点赞数 3

分类专栏： kafka

本文链接：https://blog.csdn.net/u011066470/article/details/88089270

版权

kafka 专栏收录该内容

33 篇文章

订阅专栏

本文深入探讨了Kafka的消费模型，包括推送(push)和拉取(pull)两种模式的优缺点，以及如何通过消费者组(consumergroup)实现消息的高效消费。详细解释了拉取模式下消费者如何控制偏移量，以及Kafka如何处理消息的持久性和过期策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.1 消费流程

1.消息有生产者发布到kafka集群后，会被消费者消费。消息的消费模型有两种，推送模型（push）和拉取模型（pull）。

1.1 基于推送模型（push）的消息系统，有消息代理记录消费者的消费状态。消息代理在将消息推送到消费者后，标记这条消息已经消费，但这种方式无法很好地保证消费被处理。如果要保证消息被处理，消息代理发送完消息后，要设置状态为“已发送”，只要收到消费者的确认请求后才更新为“已消费”，这就需要代理中记录所有的消费状态，但显然这种方式不可取。

缺点：标记为消费后，其他消费者则不可以再消费了，不可取。

1.2 kafka采用拉取模型，由消费者自己记录消费状态，每个消费者互相独立地顺序拉取每个分区的消息。如下图所示，有两个消费者（不同消费者组）拉取同一个主题的消息，消费者A的消费进度是3，消费者B的消费进度是6。消费者拉取的最大上限通过最高水位（watermark）控制，生产者最新写入的消息如果还没有达到备份数量，对消费者是不可见的。这种由消费者控制偏移量的优点是：消费者可以按照任意的顺序消费消息。比如，消费者可以重置到旧的偏移量，重新处理之前已经消费过的消息；或者直接跳到最近的位置，从当前的时刻开始消费。

在一些消息系统中，消息代理会在消息被消费之后立即删除消息。如果有不同类型的消费者订阅同一个主题，消息代理可能需要冗余地存储同一消息；或者等所有消费者都消费完才删除，这就需要消息代理跟踪每个消费者的消费状态，这种设计很大程度上限制了消息系统的整体吞吐量和处理延迟。Kafka的做法是生产者发布的所有消息会一致保存在Kafka集群中，不管消息有没有被消费。用户可以通过设置保留时间来清理过期的数据，比如，设置保留策略为两天。那么，在消息发布之后，它可以被不同的消费者消费，在两天之后，过期的消息就会自动清理掉。

1.3 消费者是以consumer group消费者组的方式工作，由一个或者多个消费者组成一个组，共同消费一个topic。每个分区在同一时间只能由group中的一个消费者读取，但是多个group可以同时消费这个partition。在图中，有一个由三个消费者组成的group，有一个消费者读取主题中的两个分区，另外两个分别读取一个分区。某个消费者读取某个分区，也可

以叫做某个消费者是某个分区的拥有者。

在这种情况下，消费者可以通过水平扩展的方式同时读取大量的消息。另外，如果一个消费者失败了，那么其他的group成员会自动负载均衡读取之前失败的消费者读取的分区。