Kafka学习---分区与副本原理解析

最新推荐文章于 2024-05-16 14:40:10 发布

大龄码农生活

最新推荐文章于 2024-05-16 14:40:10 发布

阅读量1.6k

点赞数 1

分类专栏：消息中间件

本文链接：https://blog.csdn.net/qq_36697880/article/details/109286032

版权

本文深入探讨Kafka的分区与副本机制，包括Broker Leader选举、分区和副本的概念，以及副本数据同步的原理。Kafka通过副本实现数据冗余备份，保证高可用性，同时通过Leader副本处理读写请求，保证分区内部消息的顺序性。在副本数据同步中，介绍了LEO、HW等关键概念以及数据丢失的潜在风险和解决方案。

摘要由CSDN通过智能技术生成

一、kafka集群

kafka集群是由broker组成的。Broker 是 Kafka 的服务节点，即 Kafka 的服务器。其架构图下图：

Producer：生产者，也就是发送消息的一方。生产者负责创建消息，然后将其发送到 Kafka。
Consumer：消费者，也就是接受消息的一方。消费者连接到 Kafka 上并接收消息，进而进行相应的业务逻辑处理。
Consumer Group：一个消费者组可以包含一个或多个消费者。使用多分区 + 多消费者方式可以极大提高数据下游的处理速度，同一消费组中的消费者不会重复消费消息，同样的，不同消费组中的消费者消息消息时互不影响。Kafka 就是通过消费组的方式来实现消息 P2P 模式和广播模式。
Broker：服务代理节点。Broker 是 Kafka 的服务节点，即 Kafka 的服务器。
Topic：Kafka 中的消息以 Topic 为单位进行划分，生产者将消息发送到特定的 Topic，而消费者负责订阅 Topic 的消息并进行消费。
Partition：Topic 是一个逻辑的概念，它可以细分为多个分区，每个分区只属于单个主题。同一个主题下不同分区包含的消息是不同的，分区在存储层面可以看作一个可追加的日志（Log）文件，消息在被追加到分区日志文件的时候都会分配一个特定的偏移量（offset）。
Offset：offset 是消息在分区中的唯一标识，Kafka 通过它来保证消息在分区内的顺序性，不过 offset 并不跨越分区，也就是说，Kafka 保证的是分区有序性而不是主题有序性。
Replication：副本，是 Kafka 保证数据高可用的方式，Kafka 同一 Partition 的数据可以在多 Broker 上存在多个副本，通常只有主副本对外提供读写服务，当主副本所在 broker 崩溃或发生网络一场，Kafka 会在 Controller 的管理下会重新选择新的 Leader 副本对外提供读写服务。
Record：实际写入 Kafka 中并可以被读取的消息记录。每个 record 包含了 key、value 和 timestamp。

1.1、Kakfa Broker Leader的选举

Broker集群受Zookeeper管理。所有的Kafka Broker节点一起去zookeeper上创建/controller临时节点，因为只有一个Kafka Broker会注册成功，其他的都会失败，所以这个成功在Zookeeper上注册临时节点的这个Kafka Broker会成为Kafka Broker Controller，其他的Kafka broker叫Kafka Broker follower。（这个过程叫Controller在ZooKeeper注册Watch）。这个Controller会监听其他的Kafka Broker的所有信息，如果这个kafka broker controller宕机了，在zookeeper上面的那个临时节点就会消失，此时所有的kafka broker又会一起去 Zookeeper上注册一个临时节点，因为只有一个Kafka Broker会注册成功，其他的都会失败，所以这个成功在Zookeeper上注册临时节点的这个Kafka Broker会成为Kafka Broker Controller，其他的Kafka broker叫Kafka Broker follower 。

二、topic 的分区与副本

2.1 分区

Kafka的每个topic都可以分为多个Partition，并且多个partition会均匀分布在集群的各个节点下。虽然这种方式能够有效的对数据进行分片，但是对于每个partition来说，都是单点的，当其中一个partition不可用的时候，那么这部分消息就没办法消费。所以kafka为了提高partition的可靠性而提供了副本的概念（Replica）,通过副本机制来实现冗余备份。

每个分区可以有多个副本，并且在副本集合中会存在一个leader的副本，所有的读写请求都是由leader 副本来进行处理。剩余的其他副本都做为follower副本，follower副本会从leader副本同步消息日志。这个有点类似zookeeper中leader和follower的概念，但是具体的时间方式还是有比较大的差异。所以我们可以认为，副本集会存在一主多从的关系。

区和副本的分配方式如下图：

可能通过上图，你云里雾里࿰

最低0.47元/天解锁文章

大龄码农生活

关注

1
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Kafka学习---分区与副本原理解析

一、kafka集群kafka集群是由broker组成的。Broker 是 Kafka 的服务节点，即 Kafka 的服务器。其架构图下图： Producer：生产者，也就是发送消息的一方。生产者负责创建消息，然后将其发送到 Kafka。 Consumer：消费者，也就是接受消息的一方。消费者连接到 Kafka 上并接收消息，进而进行相应的业务逻辑处理。 Consumer Group：一个消费者组可以包含一个或多个消费者。使用多分区 + 多消费者方式可以极大提高数据下游的处理
复制链接

扫一扫

专栏目录