突发宕机,Kafka写入的数据如何保证不丢失?

本文探讨了Kafka的分布式存储架构,如何通过Partition和副本实现数据的分布式存储和高可用。在面临宕机时,Kafka通过ISR机制确保Follower与Leader保持同步,防止数据丢失。要确保数据不丢失,需要满足至少一个Follower在ISR列表中,并且每次写入要求Leader和至少一个ISR中的Follower都成功。
摘要由CSDN通过智能技术生成

我们暂且不考虑写磁盘的具体过程,先大致看看下面的图,这代表了 Kafka 的核心架构原理。

在这里插入图片描述

Kafka 分布式存储架构

那么现在问题来了,如果每天产生几十 TB 的数据,难道都写一台机器的磁盘上吗?这明显是不靠谱的啊!

所以说,这里就得考虑数据的分布式存储了,我们结合 Kafka 的具体情况来说说。

在 Kafka 里面,有一个核心的概念叫做“Topic”,这个 Topic 你就姑且认为是一个数据集合吧。

举个例子,如果你现在有一份网站的用户行为数据要写入 Kafka,你可以搞一个 Topic 叫做“user_access_log_topic”,这里写入的都是用户行为数据。

然后如果你要把电商网站的订单数据的增删改变更记录写 Kafka,那可以搞一个 Topic 叫做“order_tb_topic”,这里写入的都是订单表的变更记录。

然后假如说咱们举个例子,就说这个用户行为 Topic 吧,里面如果每天写入几十 TB 的数据,你觉得都放一台机器上靠谱吗?

明显不太靠谱,所以 Kafka 有一个概念叫做 Partition,就是把一个 Topic 数据集合拆分为多个数据分区,你可以认为是多个数据分片,每个 Partition 可以在不同的机器上,储存部分数据。

这样,不就可以把一个超大的数据集合分布式存储在多台机器上了吗?大家看下图,一起来体会一下。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值