浅析 Apache Kafka 分区重分配的实现原理

ikyrxbxfas

于 2022-07-13 11:32:14 发布

阅读量281

点赞数

分类专栏： Java Java编程 Spring 文章标签： kafka java spring boot mysql 分布式

本文链接：https://blog.csdn.net/java_beautiful/article/details/125760085

版权

本文由中国移动云能力中心大数据团队软件开发工程师孙大鹏撰写，深入剖析 Kafka 2.0.0 版本中分区副本重分配的流程和逻辑。文章介绍了如何使用 kafka-reassign-partitions 工具，探讨了 ZooKeeper 在元数据管理中的角色，以及 Kafka Controller 如何协调分区重分配。整个过程包括客户端发起任务、Controller 的元数据变更维护以及 Broker 端的数据迁移。

摘要由CSDN通过智能技术生成

本文作者为中国移动云能力中心大数据团队软件开发工程师孙大鹏，本文结合 2.0.0 版本的 Kafka 源码，详细介绍了 Kafka 分区副本重分配的流程和逻辑，供大家参考。

一、前言

Kafka 是由 Apache 软件基金会开发的一个开源流处理平台，旨在提供一个统一的、高吞吐、低延迟的实时数据处理平台。其持久化层本质上是一个“按照分布式事务日志架构的大规模发布/订阅消息队列”，这使它作为企业级基础设施来处理流式数据非常有价值。

在 Kafka 中，用 topic 来对消息进行分类，每个进入到 Kafka 的信息都会被放到一个 topic 下，同时每个 topic 中的消息又可以分为若干 partition 以此来提高消息的处理效率。存储消息数据的主机服务器被命名为 broker。通常为了保证数据的可靠性，数据是以多副本的形式保存在不同 broker 的不同磁盘上的。对于每一个 topic 的每一个 partition，如果多个副本之间完成了数据同步，保证了数据的一致性，则此时的多个副本所在的 broker 的集合称为 Isr。同一时间，某个 topic 的某个 partition 的多个副本中仅有一个对外提供服务，此时对外提供服务的 broker 被认定为该 partition 的 leader，客户端的请求都集中到 leader 上。

对于 2 副本 3 分区的 topic 其描述信息及存储状态如下所示：

test的描述信息：
Topic:test PartitionCount:3 ReplicationFactor:2 Configs:min.insync.replic
as=1
Topic: test Partition: 0 Leader: 0 Replicas: 0，1 Isr: 0，1
Topic: test Partition: 1 Leader: 2 Replicas: 2，0 Isr: 2，0
Topic: test Partition: 2 Leader: 1 Replicas: 1，2 Isr: 1，2

test的副本分布

健康状态的 Kafka 集群，对于每个 topic 的每个 partition，其 Isr 都应该等于预期的副本集合（后面均已 Replicas 表示），但在实际场景中，不可避免的存在磁盘/主机故障，或者由

最低0.47元/天解锁文章

ikyrxbxfas

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
浅析 Apache Kafka 分区重分配的实现原理

本文作者为中国移动云能力中心大数据团队软件开发工程师孙大鹏，本文结合 2.0.0 版本的 Kafka 源码，详细介绍了 Kafka 分区副本重分配的流程和逻辑，供大家参考。
复制链接

扫一扫

专栏目录