整理好了！2024年最常见 20 道 Kafka面试题（六）

最新推荐文章于 2024-08-14 21:17:33 发布

大料爱编程

最新推荐文章于 2024-08-14 21:17:33 发布

阅读量1.1k

点赞数 30

分类专栏： kafka 消息队列程序员面试文章标签： kafka 分布式面试跳槽后端中间件消息队列

本文链接：https://blog.csdn.net/weixin_38616368/article/details/139434811

版权

程序员面试同时被 3 个专栏收录

119 篇文章 0 订阅

订阅专栏

消息队列

20 篇文章 0 订阅

订阅专栏

kafka

10 篇文章 0 订阅

订阅专栏

上一篇地址：整理好了！2024年最常见 20 道 Kafka面试题（五）-CSDN博客

十一、Kafka中的ISR（In-Sync Replicas）是什么？

在 Apache Kafka 中，ISR 是 "In-Sync Replicas" 的缩写，它代表与领导者（Leader）保持同步的追随者（Follower）集合。ISR 是 Kafka 保证数据一致性和高可用性的关键概念之一。以下是关于 ISR 的详细解释：

同步状态： ISR 列表包含了所有与领导者完全同步的追随者副本。这意味着这些追随者已经成功复制了领导者的所有消息，并且没有落后于领导者。
数据一致性： Kafka 通过 ISR 来确保数据的一致性。只有当所有在 ISR 中的追随者都成功复制了消息后，领导者才会认为消息已经被提交（即，对于生产者来说，消息已经被持久化）。这确保了即使领导者发生故障，至少有一个同步的追随者可以接管并保证数据不会丢失。
故障转移：当领导者发生故障时，新的领导者将从 ISR 中选举出来。这保证了新的领导者拥有与前领导者相同的数据状态，从而维护了数据的一致性。
动态调整： ISR 列表是动态变化的。如果追随者由于网络延迟、处理能力不足或其他原因而落后于领导者，它可能会被踢出 ISR 列表。同样，如果追随者赶上领导者并同步了所有消息，它可以重新加入 ISR。
配置参数： Kafka 提供了一些配置参数来控制 ISR 的行为，例如：
- replica.lag.time.max.ms：追随者落后领导者的最大时间。如果追随者落后的时间超过这个值，它将被踢出 ISR。
- replica.fetch.max.bytes：追随者从领导者拉取数据时的最大字节数。
- min.insync.replicas：ISR 中必须保持的最小追随者数量。这个设置确保了即使部分追随者失败，仍然有足够的副本来保证数据的一致性和故障转移。
性能考虑：通过限制 ISR 的大小，Kafka 可以在保证数据一致性的同时，优化性能。如果 ISR 过大，追随者可能会因为复制延迟而落后，导致频繁的领导者选举和性能下降。
监控和维护：监控 ISR 的大小和状态是维护 Kafka 集群健康的重要部分。管理员需要确保 ISR 列表中有足够的追随者副本，以便在领导者故障时能够快速恢复。

总之，ISR 是 Kafka 中维护数据一致性和高可用性的关键机制。通过动态管理与领导者同步的追随者集合，Kafka 能够在保证数据不丢失的同时，提供高性能的消息处理能力。

十二、Kafka的日志压缩和清理机制是如何工作的？

Apache Kafka 的日志压缩和清理机制是其数据管理策略的重要组成部分，旨在确保Kafka集群可以高效地处理和存储大量数据，同时避免无限制地增长。以下是 Kafka 日志压缩和清理机制的详细解释：

日志压缩（Log Compaction）

概念： Kafka 的日志压缩是指将具有相同键（key）的消息合并成一条消息的过程。这在处理需要去重或者聚合的场景中非常有用。
工作原理：
- 当启用日志压缩时，Kafka 会在每个分区中为每个唯一的键维护一个最新值。
- 当新消息到达时，如果它的键已经存在，Kafka 将用新值替换旧值，而不是简单地追加新消息。
- 这会导致日志文件中只有每个键的最新值，从而减少了存储需求。
配置：
- 日志压缩可以通过设置主题的 cleanup.policy 属性为 compact 来启用。
- 压缩操作通常在后台进行，不会影响消息的生产和消费。

日志清理（Log Cleanup）

概念： Kafka 的日志清理是指删除不再需要的消息，以释放存储空间。
工作原理：
- Kafka 通过跟踪消息的偏移量（offset）来管理日志。消费者可以指定从哪个偏移量开始消费消息。
- 当消费者消费了一定量的消息后，Kafka 可以安全地删除那些偏移量之前的消息。
配置：
- 日志清理可以通过设置主题的 cleanup.policy 属性为 delete 来启用。
- 可以结合使用 compact 和 delete 策略，以实现更高效的数据管理。