kafka消息文件有两个:索引文件和数据文件
索引文件和数据文件对应关系
1、一个partition包含多个segment文件,每个segment文件为1G左右;
2、index文件:左边为本segment文件中的顺序编号,右边为数据文件中的实际物理地址,根据消息的长度地址偏移多少。
3、log文件:消息数据文件,左边为该条消息在本segment文件中的实际物理地址偏移,右边为该条消息在整个partition中的全局顺序编号
4、如何查找消息:比如要查找偏移量offset=16574的消息内容:
首先根据偏移量通过折半查找的方式,找到该偏移量在0000000016560.index的索引文件中,也就是对应0000000016560.log的数据文件中;
其次用该offset减去索引文件的编号0000000016560=4,也就是索引文件中第4个消息,即编号为3
折半查找索引文件,发现索引文件中没有3的编号,那就获取它前面存在的编号,编号为1,在log数据文件中找到该条数据,物理地址偏移量为12,从此位置顺序遍历后面的消息,直到查找到编号为3的消息。
索引文件为什么不是全量的,而是稀疏的:
稀疏的索引文件有利用减少索引文件的大小,索引文件需要全部加载到内存中提高效率,根据稀疏程度可以减少几倍索引文件大小,然后进行少量的遍历即可找到数据。并且遍历数据时,是一个pagecache读取到内存中,此时极有可能会将后面需要的数据一块读入内存中。