kafka消息存储+查询机制

最新推荐文章于 2024-10-11 20:23:43 发布

番茄1223

最新推荐文章于 2024-10-11 20:23:43 发布

阅读量1.2k

点赞数

分类专栏：消息队列文章标签： kafka

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jdk819/article/details/120238532

版权

消息队列专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、kafka数据存储机制

kafka作为消息中间件，会临时存储消息，提供对外查询接口，数据默认存储168小时（7days），超时会被删除。

kafka采用多文件存储方式来保存数据，主要是有两个方面的考虑：

所有数据存储到一个文件，会使得存储文件比较大，影响查询的效率。
对于过期数据的清理，不太方便，需要清理掉过期数据，并将未过期的数据重新写入到文件，切分多个文件后，可以根据文件的日期，直接删除文件即可。

如上图所示，segment段有两个核心文件：log文件和index文件，当log文件等于1G时，新的数据会写到下一个segment中，可以通过下图可以看出segment段会存储差不多70万条数据。

文件命名规则说明：

00000000000000000000.index——表示最开始的文件，起始偏移量（offset）为0
00000000000000368769.index——消息的起始偏移量为368770=368769+1
00000000000000737337.index——消息的起始偏移量为368770=368769+1

*以起始偏移量命名并排序这些文件，只需要根据offset的二分查找算法，快速定位到需要查询的指定的偏移量对应的文件。

思考个问题：切分文件的时间阈值？比如一天没有写到70万条数据，应该也会生成新的segment段。

二、kafka数据查询机制

说个具体的查询例子，来说明kafka的查询机制。

比如在下图的kafka文件中，查询offset=368776的message消息。

第一步：确定segment段

根据index文件命名规则，使用二分算法，定位到368776这个偏移量应该在文件00000000000000368769.index文件中。

第二步：通过segment file查找message

第一步中已经定位了元数据物理位置00000000000000368769.index，进一步可以定位到物理偏移地址文件00000000000000368769.log，通过顺序查找到offset=268776的message。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

番茄1223 CSDN认证博客专家 CSDN认证企业博客

码龄15年

31: 原创

15万+: 周排名

47万+: 总排名

2万+: 访问

: 等级

362: 积分

4: 粉丝

18: 获赞

2: 评论

72: 收藏

私信

关注

热门文章

分类专栏

JAVA基础知识 14篇
k8s 1篇
flink 1篇
Harbor
Python
消息队列 4篇
数据库 2篇
Spring 5篇
mybatis 1篇
开源组件 3篇

最新评论

单机使用docker容器搭建kafka集群
Liznhd: 可以看到second这个topic并没有真正删除，只是标记为deletion，如果需要真正删除，可以修改配置文件/config/server.properties中delete.topic.enable=true，请问在docker中如何修改
单机使用docker容器搭建kafka集群
lmw0320: 请问下，不用官方的kafka镜像，而直接用tar解压方法来安装kafka后，启动服务，可以吧？？因为我除了这个kafka服务，我还要用到其他的东西，所以想在我自身的镜像内，来安装kafka，启动该服务

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。