极简单系列-kafka 存储

最新推荐文章于 2024-07-23 11:11:07 发布

Dm同学

最新推荐文章于 2024-07-23 11:11:07 发布

阅读量112

点赞数

分类专栏：极简单系列-kafka 文章标签： kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010176014/article/details/107676825

版权

极简单系列-kafka 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

在这里插入图片描述

每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该log 文件末端，且每条数据都有自己的 offset。
消费者组中的每个消费者，都会实时记录自己消费到了哪个 offset，以便出错恢复时，从上次的位置继续消费。

存储的设计
在这里插入图片描述
由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位
效率低下，Kafka 采取了分片和索引机制，将每个 partition 分为多个 segment。每个 segment。对应两个文件——“.index”文件和“.log”文件。这些文件位于一个文件夹下，该文件夹的命名。规则为：topic 名称+分区序号。例如，first 这个 topic 有三个分区，则其对应的文件夹为 first0,first-1,first-2。

index 和 log 文件以当前 segment 的第一条消息的 offset 命名

查找某个offser 对应的消息体内容先通过二分查找的方式 logn 找到对应的index

（需要注意一点 topic 只能增不能减）

查找

在这里插入图片描述

Index 存储的是文件起始偏移量的位置以及文件大小

当我知道了文件的歧视位置和终止位置那么就很快可以直接找到对应文件。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
极简单系列-kafka 存储

每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。Producer 生产的数据会被不断追加到该log 文件末端，且每条数据都有自己的 offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个 offset，以便出错恢复时，从上次的位置继续消费。存储的设计由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下，Kafka 采取了分片和索引机制，将每个 partition 分为多个 s.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。