kafka 数据可靠性深度解读

最新推荐文章于 2022-11-25 20:43:32 发布

程序员小陶

最新推荐文章于 2022-11-25 20:43:32 发布

阅读量436

点赞数 1

分类专栏：大数据探索大数据进击之路文章标签： kafka 多分区 leader 副本

本文链接：https://blog.csdn.net/qq_31975963/article/details/84995583

版权

大数据进击之路同时被 2 个专栏收录

42 篇文章 7 订阅

订阅专栏

大数据探索

29 篇文章 1 订阅

订阅专栏

文章目录

- kafka 数据可靠性深度解读
- - 多分区、多副本
  - - 多分区的设计的特点：
    - kafak 分区 leader 机制

kafka 数据可靠性深度解读

多分区、多副本

kafka 的消息保存在Topic中，Topic可分为多个分区，为保证数据的安全性，每个分区又有多个Replia。

多分区的设计的特点：

1.为了并发读写，加快读写速度；
2.是利用多分区的存储，利于数据的均衡；
3.是为了加快数据的恢复速率，一但某台机器挂了，整个集群只需要恢复一部分数据，可加快故障恢复的时间。
每个Partition分为多个Segment，每个Segment有.log和.index 两个文件，每个log文件承载具体的数据，每条消息都有一个递增的offset，Index文件是对log文件的索引，Consumer查找offset时使用的是二分法根据文件名去定位到哪个Segment，然后解析msg，匹配到对应的offset的msg。
kafka处理的数据量很大，可以说有多少个partition就有多少个leader, 所以简化一些管理逻辑，可以节省很多资源消耗。 kafka会将"leader"均衡的分散在每个实例上,可确保整体的性能稳定.

kafak 分区 leader 机制

kafka在引入Replication之后，同一个Partition可能会有多个Replica，而这时需要在这些Replication之间选出一个Leader。

基于上面的分区 leader 机制，Producer和Consumer只与这个Leader交互，其它Replica作为Follower从Leader中复制数据。因为需要保证同一个Partition的多个Replica之间的数据一致性（其中一个宕机后其它Replica必须要能继续服务并且即不能造成数据重复也不能造成数据丢失）。如果没有一个Leader，所有Replica都可同时读/写数据，那就需要保证多个Replica之间互相（N×N条通路）同步数据，数据的一致性和有序性非常难保证，大大增加了Replication实现的复杂性，同时也增加了出现异常的几率。而引入Leader后，只有Leader负责数据读写，Follower只向Leader顺序Fetch数据（N条通路），系统更加简单且高效。

kafka 参考 https://www.cnblogs.com/wangb0402/p/6182707.html