Kafka数据可靠性保证及分区分配策略

最新推荐文章于 2024-06-08 20:22:49 发布

x我有辣条跟我走。

最新推荐文章于 2024-06-08 20:22:49 发布

阅读量283

点赞数

文章标签： 1024程序员节

本文链接：https://blog.csdn.net/XIAOMO__/article/details/109253508

版权

Kafka的数据可靠性保证

为保证producer发送的数据，能可靠的发送到指定的topic，topic的每个partition收到producer发送的数据后，都需要向producer发送ack（acknowledgement确认收到），如果producer收到ack，就会进行下一轮的发送，否则重新发送数据。

1）副本数据同步策略

方案	优点	缺点
半数以上完成同步，就发送ack	延迟低	选举新的leader时，容忍n台节点的故障，需要2n+1个副本
全部完成同步，才发送ack	选举新的leader时，容忍n台节点的故障，需要n+1个副本	延迟高

Kafka选择了第二种方案，半数机制：

1.同样为了容忍n台节点的故障，第一种方案需要2n+1个副本，而第二种方案只需要n+1个副本，而Kafka的每个分区都有大量的数据，第一种方案会造成大量数据的冗余。

2.虽然第二种方案的网络延迟会比较高，但网络延迟对Kafka的影响较小。

遇到一个问题：

采用第二种方案之后，设想以下情景：leader收到数据，所有follower都开始同步数据，但有一个follower，因为某种故障，迟迟不能与leader进行同步，那leader就要一直等下去，直到它完成同步，才能发送ack。这个问题怎么解决呢？（isr:同步副本集）

Leader维护了一个动态的in-sync replica set (ISR)，意为和leader保持同步的follower集合。当ISR中的follower完成数据的同步之后，leader就会给follower发送ack。如果follower长时间未向leader同步数据，则该follower将被踢出ISR，该时间阈值由replica.lag.time.max.ms参数设定。Leader发生故障之后，就会从ISR中选举新的leader。

Kafka为用户提供了三种可靠性级别，用户根据对可靠性和延迟的要求进行权衡，选择以下的配置：（ack应答机制）

类似班级交作业和选班长，0：发给你不用确认1：老师给班长发消息班长确认，再发给学上3：老师给班长，班长确认，班长发给学上，学生也确认；ack = 1:可能丢失数据，概率很小 -1：可能，概率很小，导致数据重复

acks参数配置：

0：producer不等待broker的ack，这一操作提供了一个最低的延迟，broker一接收到还没有写入磁盘就已经返回，当broker故障时有可能丢失数据；

1：producer等待broker的ack，partition的leader落盘成功后返回ack，如果在follower同步成功之前leader故障，那么将会丢失数据；

-1（all）：producer等待broker的ack，partition的leader和follower全部落盘成功后才返回ack。但是如果在follower同步完成后，broker发送ack之前，leader发生故障，那么会造成数据重复。注意，如果isr里面只有一个leader，即便是为1，也可能丢失数据。

follower故障：

follower发生故障后会被临时踢出ISR，待该follower恢复后，follower会读取本地磁盘记录的上次的HW，并将log文件高于HW的部分截取掉，从HW开始向leader进行同步。

等该follower的LEO大于等于该Partition的HW，即follower追上leader之后，就可以重新加入ISR了。（Hw：消费者能看到的最大offset）

leader故障：

leader发生故障之后，会从ISR中选出一个新的leader，之后，为保证多个副本之间的数据一致性，其余的follower会先将各自的log文件高于HW的部分截掉，然后从新的leader同步数据。

注意：这只能保证副本之间的数据一致性，并不能保证数据不丢失或者不重复。

Exactly Once语义：保证每条消息被发送且仅被发送一次。

在0.11版本之后，Kafka Producer引入了幂等性机制（idempotent），配合acks = -1时的at least once语义，实现了producer到broker的exactly once语义。

idempotent + at least once = exactly once

使用时，只需将enable.idempotence属性设置为true，kafka自动将acks属性设为-1，并将retries属性设为Integer.MAX_VALUE。

我们项目本来用的。。。，我们后来发现kafka有个特性幂等性，怎么引用。。。

三种语义：

最多一次：at most once ：0 最少一次：at least once：有且仅有一次：exactly once唯一标示：生产者，topic，分区生成唯一标示。只能保证一个分区的唯一性

分区分配策略

疑问：一个consumer group中有多个consumer，一个 topic有多个partition，所以必然会涉及到partition的分配问题，即确定那个partition由哪个consumer来消费。

（消费者组是广播（效率高，但有些人听不到），消费者是拉（听歌你自己点，自己可以控制））

Kafka 当什么事件发生时，将会进行一次分区分配：

同一个 Consumer Group 内新增消费者
消费者离开当前所属的Consumer Group，包括shuts down 或 crashes
订阅的主题新增分区

Kafka有两种分配策略，一是RoundRobin(轮询），一是Range（范围）。

Roundrobin：消费者按顺序消费分区，一轮一轮的消费分区，直到结束。（消费者的增加减少，会重分区；topic的分区增加减少也会重分区。）

Range：

Range 范围分区策略是对每个 topic 而言的。首先对同一个 topic 里面的分区按照序号进行排序，并对消费者按照字母顺序进行排序。假如现在有 10 个分区，3 个消费者，排序后的分区将会是0,1,2,3,4,5,6,7,8,9；消费者排序完之后将会是C1-0,C2-0,C3-0。通过 partitions数/consumer数 来决定每个消费者应该消费几个分区。如果除不尽，那么前面几个消费者将会多消费 1 个分区。