4.3 数据不丢失机制
一般我们在用到这种消息中间件的时候,肯定会考虑要怎样才能保证数据不丢失,在面试中也会问到相关的问题。但凡遇到这种问题,是指3个方面的数据不丢失,即:produce r端数据不丢失、 consumer 端数据不丢失、 broker端数据不丢失。下面我们分别从这三个方面来学习,kafka是如何保证数据不丢失的
4.3.1 broker端数据不丢失(leader竞选导致消息丢失)
生产者通过分区的leader写入数据后,所有再ISR中的follower都会从leader中复制数据,这样,可以确保即使leader奔溃了,其他的follower的数据依然可以使用。
broker相关保证数据不丢失的配置如下
-
replication-factor 3
在创建topic时会通过replication-factor来创建副本的个数,它提高了kafka的高可用性,同时,它允许n-1台broker挂掉,设置好合理的副本因子对kafka整体性能是非常有帮助的,通常是3个,极限是5个,如果多了也会影响开销。
-
min.insync.replicas = 2
分区ISR队列集合中最少有多少个副本,默认值是1,ISR集合是可参与竞选leader的集合。 -
unclean.leander.election.enable = false
是否允许从ISR队列中选举leader副本,默认值是false,如果设置成true,则可能会造成数据丢失
详细解释:
min.insync.replica 在一个topic中,1个分区 有3个副本,在创建时设置了min.insync.replica=2,假如此时在ISR中只有leader副本(1个)存在,在producer端生产数据时,此时的acks=all,这也就意味着在producer向broker端写数据时,必须保证ISR中指定数量的副本(包含leader、fllow副本)全部同步完成才算写成功,这个数量就是由min.in