本文目录
一、前言
在上一篇文章里我们探讨了kafka的工作流程、存储机制、分区策略,理清楚了生产者生产的数据是怎么存储的以及怎么根据offset去查询数据这类问题:深入分析Kafka架构(一):工作流程、存储机制、分区策略
那么kafka是怎么保证数据可靠性的呢?怎么保证exactly once的呢?在分布式的环境下又是如何进行故障处理的呢?本篇文章我们就来分析这个问题。
二、数据可靠性
首先我们要知道kafka发送数据的机制:Kafka为了保证producer发送的数据,能可靠的发送到指定的topic,因此topic的每个partition收到producer发送的数据后,都需要向producer发送ack信息(acknowledgement确认收到),如果producer收到ack,就会进行下一轮的发送,否则重新发送数据。
2.1、副本数据同步策略
我们知道kafka的partition是主从结构的,因此当一个topic对应多个partiton时,为了保证leader挂掉之后,能在follower中选举出新的leader且不丢失数据,就需要确保follower与leader同步完成之后,leader再发送ack。
大致图示如下:
这时会产生一个问题也就是副本数据同步策略:多少个follower同步完成之后才发送ack呢?
有两个方案对比如下:
- 半数以上完成同步,就发送ack(优点:延迟低;缺点:选举新的leader时,容忍n台节点的故障,需要2n+1个副本)
- 全部完成同步,才发送ack(优点:选举新的leader时,容忍n台节点的故障,需要n+1个副本;缺点:延迟高)
我们知道kafka采用零拷贝技术优化数据传输,因此网络延迟对kafka的影响较小。但是由于kafka一般都是处理海量数据,在同样为