Kafka存储（为什么Kafka使用磁盘作为存储介质

莫晓前端资料

于 2024-03-19 14:32:26 发布

阅读量1k

点赞数 26

分类专栏： Java程序员文章标签： kafka 分布式

本文链接：https://blog.csdn.net/m0_60226911/article/details/136842056

版权

本章主要讲述了Kafka中与存储相关的知识点，包含了Kafka自身的日志格式日志索引日志清理等方面的内容，也涉及到底层物理存储相关的知识。通过本章的学习，可以Kafka核心机理有较深入的认知。小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。深知大多数初中级Java工程师，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

摘要由CSDN通过智能技术生成

首先是用二分查找确定它是在哪个LogSegment中，自然是在第一个Segment中。打开这个Segment的index文件，也是用二分查找找到offset小于或者等于指定offset的索引条目中最大的那个offset。自然offset为6的那个索引是我们要找的，通过索引文件我们知道offset为6的Message在数据文件中的位置为9807。

打开数据文件，从位置为9807的那个地方开始顺序扫描直到找到offset为7的那条Message。

这套机制是建立在offset是有序的。索引文件被映射到内存中，所以查找的速度还是很快的。

一句话，Kafka的Message存储采用了分区(partition) ，分段(LogSegment) 和 稀疏索引这几个手段来达到了高效性。

三、日志清理

1.日志删除

Kafka日志管理器允许定制删除策略。目前的策略是删除修改时间在N天之前的日志（按时间删除），也可以使用另外一个策略：保留最后的NGB数据的策略(按大小删除)。为了避免在删除时阻塞读操作，采用了copy-on-write形式的实现，删除操作进行时，读取操作的二分查找功能实际是在一个静态的快照副本上进行的，这类似于Java的CopyOnWriteArrayList。 Kafka消费日志删除思想：Kafka把topic中一个parition大文件分成多个小文件段，通过多个小文件段，就容易定期清除或删除已经消费完文件，减少磁盘占用。

log.cleanup.policy=delete 启用删除

最低0.47元/天解锁文章

莫晓前端资料

关注

26
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
Kafka存储（为什么Kafka使用磁盘作为存储介质

本章主要讲述了Kafka中与存储相关的知识点，包含了Kafka自身的日志格式日志索引日志清理等方面的内容，也涉及到底层物理存储相关的知识。通过本章的学习，可以Kafka核心机理有较深入的认知。小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。深知大多数初中级Java工程师，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！
复制链接

扫一扫

专栏目录