kafka根据offset查找消息原理

kafka消息文件有两个:索引文件和数据文件

索引文件和数据文件对应关系

 

1、一个partition包含多个segment文件每个segment文件为1G左右;

2、index文件:左边为本segment文件中的顺序编号,右边为数据文件中的实际物理地址,根据消息的长度地址偏移多少。

3、log文件:消息数据文件,左边为该条消息在本segment文件中的实际物理地址偏移,右边为该条消息在整个partition中的全局顺序编号

 

4、如何查找消息:比如要查找偏移量offset=16574的消息内容:

首先根据偏移量通过折半查找的方式,找到该偏移量在0000000016560.index的索引文件中,也就是对应0000000016560.log的数据文件中;

其次用该offset减去索引文件的编号0000000016560=4,也就是索引文件中第4个消息,即编号为3

折半查找索引文件,发现索引文件中没有3的编号,那就获取它前面存在的编号,编号为1,在log数据文件中找到该条数据,物理地址偏移量为12,从此位置顺序遍历后面的消息,直到查找到编号为3的消息。

 

索引文件为什么不是全量的,而是稀疏的:

稀疏的索引文件有利用减少索引文件的大小,索引文件需要全部加载到内存中提高效率,根据稀疏程度可以减少几倍索引文件大小,然后进行少量的遍历即可找到数据。并且遍历数据时,是一个pagecache读取到内存中,此时极有可能会将后面需要的数据一块读入内存中。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值