【Kafka(二)】日志及索引文件

每一个分区一个文件夹,一个分区对应多个文件。当满足一定条件后,会生成新的文件。每一个文件叫做一个日志段,每一个日志段会关联两个索引文件,一个是偏移量索引另一个是时间戳索引。日志段以本日志内的第一条消息的偏移量命名。段内的日志偏移量是相对偏移量。

一个分区只有最新的日志段是可写的,其余的都是只读。

 

索引文件:并非每一条消息都对应一个索引项,而是积累到一定数量后,插入一条索引项。

1.偏移量:按照偏移量排序,存放的是偏移量到物理位置,查找时二分法查找。

2.时间偏移量:按照时间戳排序,查找时二分法查找。当然还需要再通过偏移量索引查找一次。

 

日志段分割的时机

1.日志文件大小;

2.日志文件最大最小时间戳大于一个阈值;

3.日志文件最大最小偏移量大于一个阈值;

4.索引文件大小大于一个阈值;

 

偏移量索引

来一个示意图:

具体如何查找?使用二分法查找index文件,定位到position,再从position开始的batch里顺序查找。

当然这里是已知索引文件的情况下的过程,那么如何定位到索引文件?kafka在内存中使用跳表结构存储所有的索引文件名(理论上二分也行)。

 

时间戳索引

时间戳索引没有存物理位置而是存了偏移量,所以定位消息时,还得再查询一次偏移量索引。

(注:图片均来自掘金小册

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值