kafka是如何高效读取指定offset的消息？

最新推荐文章于 2024-08-04 18:29:42 发布

请叫我小帅哥

最新推荐文章于 2024-08-04 18:29:42 发布

阅读量7.9k

点赞数 1

分类专栏： kafka 文章标签： kafka

本文链接：https://blog.csdn.net/qq_39548286/article/details/82632391

版权

Kafka通过将partition划分为多个segment来管理消息，每个segment包含.index和.log文件。通过offset查找message时，使用二分查找定位segment文件，并结合.index文件找到消息在.log文件中的物理偏移地址。消息的固定物理结构确保了能准确读取到一条消息的结束，避免读取到下一条。

摘要由CSDN通过智能技术生成

1、segment

随着partition文件的不断增加，文件越来越大，对于消息文件的维护和已经消费的消息的清理会带来麻烦。因此partition目录被多个连续的segment划分，segment构成了kafka的最小存储单元。这种特性也方便old segment的删除，释放空间。segment的生命周期由服务端配置参数（log.segment.bytes，log.roll.{ms,hours}等若干参数）决定。

segment文件由两部分组成，分别为“.index”文件和“.log”文件，分别表示为segment索引文件和数据文件。这两个文件的命令规则为：partition全局的第一个segment从0开始，后续每个segment文件名为上一个segment文件最后一条消息的offset值，数值大小为64位，20位数字字符长度，没有数字用0填充。

如上图，“.index”索引文件存储大量的元数据，“.log”数据文件存储大量的消息，索引文件中的元数据指向对应数据文件中message的物理偏移地址。其中以“.index”索引文件中的元数据[3, 348]为例，在“.log”数据文件表示第3个消息，即在全局partition中表示170410+3=170413个消息，该消息的物理偏移地址为348。

2、那么如何从partition中通过offset查找message呢？

以上图为例，读取offset=170418的消息，首先查找segment文件，其中00000000000000000000.ind