整理好了！2024年最常见 20 道 Kafka面试题（五）

最新推荐文章于 2024-08-14 12:36:02 发布

大料爱编程

最新推荐文章于 2024-08-14 12:36:02 发布

阅读量962

点赞数 26

分类专栏： kafka 消息队列程序员面试文章标签： kafka 分布式后端面试跳槽中间件消息队列

本文链接：https://blog.csdn.net/weixin_38616368/article/details/139434264

版权

程序员面试同时被 3 个专栏收录

119 篇文章 0 订阅

订阅专栏

消息队列

20 篇文章 0 订阅

订阅专栏

kafka

10 篇文章 0 订阅

订阅专栏

上一篇地址：整理好了！2024年最常见 20 道 Kafka面试题（四）-CSDN博客

九、Kafka 是如何维护消费状态跟踪的？

Apache Kafka 是一个分布式流处理平台，它能够高效率地处理和存储大量的数据流。在 Kafka 中，消费状态跟踪是确保消息被正确处理且不被重复处理的关键机制。以下是 Kafka 维护消费状态跟踪的几个主要方面：

偏移量（Offset）： Kafka 中的每个消息都有一个唯一的偏移量，它是一个单调递增的整数，表示消息在分区中的位置。消费者通过跟踪偏移量来确定它们在消息流中的位置。
消费者组（Consumer Group）： Kafka 通过消费者组来管理多个消费者之间的消息分配。每个消费者组内的消费者共享相同的消费者组ID，并协调消费消息以确保每个消息只被组内的一个消费者处理。
ZooKeeper：在 Kafka 的早期版本中，消费者组的状态（包括偏移量）是通过 ZooKeeper 来协调和管理的。消费者会将它们的偏移量信息存储在 ZooKeeper 中，ZooKeeper 负责选举出消费者组的组长（Group Leader），组长负责管理组内成员的状态。
Kafka 自身偏移量管理：从 Kafka 0.9 版本开始，Kafka 引入了新的消费者API，允许消费者将偏移量信息直接存储在 Kafka 的主题中，而不是依赖于外部系统如 ZooKeeper。这使得偏移量管理更加高效和可靠。
自动提交与手动提交：消费者可以配置为自动提交偏移量，也可以手动提交。自动提交意味着消费者在成功处理消息后，会自动将偏移量提交到 Kafka。手动提交则需要消费者在处理完消息后显式地提交偏移量。
消费者组的重新平衡：当消费者组中的成员发生变化（如新增消费者、消费者下线等）时，Kafka 会触发重新平衡过程。在重新平衡期间，Kafka 会重新分配分区给组内的所有消费者，并更新偏移量信息。
消费者状态的持久化：消费者可以配置为将消费状态持久化存储，这样即使消费者崩溃，重启后也能从上次提交的偏移量继续消费。
消费者拉取策略： Kafka 消费者通过拉取（pull）策略来获取消息。消费者可以指定从哪个偏移量开始拉取消息，这样可以实现精确控制消息的消费。
死信队列：对于无法处理的消息，消费者可以将它们发送到死信队列，这样可以保证消息被记录和监控，同时避免影响正常的消费流程。

通过上述机制，Kafka 能够确保消息的可靠传递和处理，同时提供灵活的消费者状态跟踪和管理功能。

十、Kafka 的主从同步是如何工作的？

Apache Kafka 的主从同步机制是其高可用性和数据一致性的关键组成部分。Kafka 的每个主题（Topic）可以被分为多个分区（Partition），而每个分区都可以有多个副本（Replica）。这些副本分为两类：领导者（Leader）和追随者（Follower）。以下是 Kafka 主从同步的工作原理：

领导者（Leader）：每个分区都有一个领导者，它是该分区数据的权威来源。所有的读写操作都是通过领导者来进行的。生产者发送的消息首先被写入领导者，然后消费者从领导者读取消息。
追随者（Follower）：追随者是领导者的副本，它们从领导者那里同步数据。追随者的主要任务是保证数据的高可用性，如果领导者失败，追随者中的一个将被提升为新的领导者。
同步（Sync）： Kafka 通过 ISR（In-Sync Replicas）列表来管理追随者与领导者之间的同步状态。ISR 列表包含了所有与领导者数据同步的追随者。追随者通过发送fetch请求来从领导者同步数据。
数据复制：当生产者发送消息到 Kafka 时，领导者会将消息写入自己的日志中。然后，领导者会等待所有同步的追随者（即ISR中的追随者）也成功写入该消息。一旦所有同步的追随者都确认写入，领导者会更新分区的偏移量，并将消息视为已提交。
故障转移：如果领导者发生故障，Kafka 会通过 Zookeeper（在较新版本中是 Kafka 自身的控制器）来选举一个新的领导者。新的领导者会从 ISR 列表中选出，以确保数据的一致性。
最小副本因子（MinISR）： Kafka 允许配置最小同步副本因子（min.insync.replicas），这个配置确保了至少有指定数量的追随者与领导者保持同步。这有助于在领导者故障时，确保有足够数量的追随者可以被选举为新的领导者。
重平衡：当追随者与领导者之间的数据不一致，或者追随者落后太多时，追随者可能会被踢出 ISR 列表。如果追随者能够赶上领导者，它可以重新加入 ISR 列表。
日志压缩： Kafka 支持日志压缩，这意味着即使追随者落后，它也可以通过压缩后的日志来快速赶上领导者，而不是重新同步整个日志。
配置参数： Kafka 的主从同步行为可以通过多个配置参数进行调整，例如 replica.lag.time.max.ms（追随者落后时间的最大值）和 replica.fetch.max.bytes（追随者一次可以从领导者拉取的最大字节数）。