V-xin:ruyuanhadeng获得600+页原创精品文章汇总PDF
目录
- 一、背景引入
- 二、Kafka分布式存储架构
- 三、Kafka高可用架构
- 四、画图复现Kafka的写入数据丢失问题
- 五、Kafka的ISR机制是什么?
- 六、Kafka写入的数据如何保证不丢失?
- 七、总结
一、背景引入
这篇文章,给大家聊一下写入Kafka的数据该如何保证其不丢失?
看过之前的文章《敲重点,MQ如何实现每秒几十万的高并发写入?面试官想听到什么!》的同学,应该都知道写入Kafka的数据是会落地写入磁盘的。
我们暂且不考虑写磁盘的具体过程,先大致看看下面的图,这代表了Kafka的核心架构原理。
二、Kafka分布式存储架构
那么现在问题来了,如果每天产生几十TB的数据,难道都写一台机器的磁盘上吗?这明显是不靠谱的啊!
所以说,这里就得考虑数据的分布式存储了,其实关于消息中间件的分布式存储以及高可用架构,之前的一篇文章《想去BAT、美团、京东和字节面试?那你必须懂他们的面试套路!》也分析过了,但是这里,我们结合Kafka的具体情况来说说。
在