kafka根据offset查找消息原理

最新推荐文章于 2024-08-25 15:46:27 发布

章绍龙

最新推荐文章于 2024-08-25 15:46:27 发布

阅读量2.2k

点赞数 1

分类专栏：消息队列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shaolong1013/article/details/100942013

版权

消息队列专栏收录该内容

10 篇文章 0 订阅

订阅专栏

kafka消息文件有两个：索引文件和数据文件

索引文件和数据文件对应关系

1、一个partition包含多个segment文件，每个segment文件为1G左右；

2、index文件：左边为本segment文件中的顺序编号，右边为数据文件中的实际物理地址，根据消息的长度地址偏移多少。

3、log文件：消息数据文件，左边为该条消息在本segment文件中的实际物理地址偏移，右边为该条消息在整个partition中的全局顺序编号

4、如何查找消息：比如要查找偏移量offset=16574的消息内容：

首先根据偏移量通过折半查找的方式，找到该偏移量在0000000016560.index的索引文件中，也就是对应0000000016560.log的数据文件中；

其次用该offset减去索引文件的编号0000000016560=4，也就是索引文件中第4个消息，即编号为3

折半查找索引文件，发现索引文件中没有3的编号，那就获取它前面存在的编号，编号为1，在log数据文件中找到该条数据，物理地址偏移量为12，从此位置顺序遍历后面的消息，直到查找到编号为3的消息。

索引文件为什么不是全量的，而是稀疏的：

稀疏的索引文件有利用减少索引文件的大小，索引文件需要全部加载到内存中提高效率，根据稀疏程度可以减少几倍索引文件大小，然后进行少量的遍历即可找到数据。并且遍历数据时，是一个pagecache读取到内存中，此时极有可能会将后面需要的数据一块读入内存中。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。