IndexFile
除了通过指定Topic进行消息消费外,RocketMQ还提供了根据Key进行消息查询的功能。该查询通过store/index/infdexFile进行索引实现的快速查询。这个indexFile中的索引数据是包含Key的消息被发送到Broker时写入的。如果消息中没有Key,不会被写入。
索引条目结构
-
每个Broker包含一组indexFile,每个indexFile都是以该indexFile被创建时的时间戳进行命名的。
-
每个indexFile由三部分组成:indexHeader(索引头),Slots(曹伟),indexes(索引数据)。
-
每个indexFile包含500万个slot,每个slot有可能会挂载很多index索引单元
-
示意图如下:
- indexHeader长度为40字节,包含六个内容:biginTimestamp(第一条消息存储时间戳),endTimestamp(最后一条消息存储时间戳),biginPhyoffset(第一条消息在commitlog中的偏移量,即commitlog offset),endPhyoffset(最后一条消息在commitlog中的偏移量),hashSlotCount(含有index的slot数量),indexCount(包含的索引单元的个数)
- 示意图如下:
注意,并不是每slot都挂载index索引单元,hashSlotCount统计的是所有挂载了index索引单元的slot数量。
indexes与slots的关系
事实上,所有的index统一放在所有的slots后,而不是每个slots后面放该slot挂载的indexes。因为无法确定该slot要挂载的indexes数量并预留空间。
-
key的hash值 % 500万的结果即为slot槽位,然后将该slot值修改为该index索引单元的indexNo,根据这个indexNo可以计算出该index单元在indexFile中的位置。
-
该取模结果的重复率是很高的,为了解决该问题,在每个index索引单元中增加了preIndexNo,用于指定该slot中当前index索引单元的前一个index索引单元。
-
slot中始终存放的是其下最新的index索引单元的indexNo,这样的话,只要找到了slot就可以找到其最新的index索引单元,而通过这个index索引单元就可以找到其之前的所有index索引单元。
-
indexNo是一个在indexFile中的流水号,从0依次递增。即在一个indexFile中所有indexNo是 以此递增的。indexNo在index索引单元中是没有体现的,其是通过indexes中依次数出来的
示意图如下:
也就是说,每个index都有一个名为preIndexNo的参数指向前一个索引单元,而slot的indexNo指向当前slot最后一个索引单元
- index索引单元默认20个字节,存放keyHash(消息中指定业务key的hash值),phyOffset(当前key对应的commitlog offset),timeDiff(当前key对应消息的存储时间与indexFile的时间差),preIndexNo(当前slot下index索引单元的前一个索引单元的indexNo)。示意图如下:
indexFile的创建时机
- 当第一条带key的消息发送来后,系统发现没有indexFile,此时会创建第一个indexFile文件
- 当一个indexFile中挂载的index索引单元数量超出2000w个时,会创建新的indexFile。当带key的消息发送到来后,系统会找到最新的indexFile,并从indexHeader的最后4字节中读取到indexCount。若indexCount >= 2000w时,会创建新的indexFile。
消息的查询流程
相关公式:
-
计算指定消息key的slot号:
key的hash % 5000000
-
计算slot号为n的slot在indexFile中的起始位置:
slot(n) = 40+5000000*4 +(m-1)*20
-
计算indexNo为m的index在indexFile的位置:
index(m) = 40 +5000000*4+(m-1)*20
公式中的40为indexHeader的字节数,5000000*4 是所有slot占用字节数