rocketmq消息索引是怎么做的
参考文章
-
形象的图示举例很棒:https://kunzhao.org/docs/rocketmq/rocketmq-message-indexing-flow/
-
写简单代码解析rocketmq的消息索引文件:https://juejin.im/post/5eaa6add6fb9a04359028457
在使用rmq的过程中觉得他的消息检索很方便,像一个db一样,很好奇它在数据量这么大的情况下,是怎么做到根据messageId、message-key、时间范围这些因素去快速的搜索的。
首先根据messageId原理比较简单,messageId里包含了broker地址信息和在commitLog里的offset,通过这两个信息我们就可以去对应的broker里去查找CommitLog的具体offset就可以拿到消息了。解析方法在org.apache.rocketmq.common.message.MessageDecoder#decodeMessageId。
by the way,这种在id里存储信息的做法在elasticsearch里也有做,默认生成的doc_id是有包含node信息的,这种特性在排查问题的时候还是很有用的。
下面主要介绍message-key和时间范围搜索是怎么做到的。
消息索引服务
有专门的索引文件,存储在 store/index下,一个索引文件相当于一个很大的hash表,整个文件结构有3部分,这3部分从头至尾依次排开
- index_header:存储了当前索引文件的一些全局信息,比如存储的消息的最大最小offset、store的时间的最大最小值,已使用的hashslot