kafka学习---消息的存储机制（日志）

最新推荐文章于 2024-05-06 17:48:04 发布

大龄码农生活

最新推荐文章于 2024-05-06 17:48:04 发布

阅读量796

点赞数

分类专栏：消息中间件

本文链接：https://blog.csdn.net/qq_36697880/article/details/109289518

版权

本文深入探讨了Kafka中消息的存储机制，包括日志文件的分段存储、索引结构以及磁盘性能优化。Kafka使用日志文件保存消息，并通过LogSegment进行分段，每个segment包含索引文件和数据文件。通过offset定位消息，利用页缓存提高I/O性能，并采用零拷贝技术减少数据传输中的复制操作。此外，文章还讨论了日志清理策略和磁盘存储的性能优化方法。

摘要由CSDN通过智能技术生成

消息发送端发送消息到broker上以后，消息是如何持久化的呢？那么接下来去分析下消息的存储首先我们需要了解的是，kafka是使用日志文件的方式来保存生产者和发送者的消息，每条消息都有一个offset值来表示它在分区中的偏移量。Kafka中存储的一般都是海量的消息数据，为了避免日志文件过大，Log并不是直接对应在一个磁盘上的日志文件，而是对应磁盘上的一个目录，这个目录的命名规则是 <topic_name> _<partion_id>

消息的文件存储机制

一个topic的多个partition在物理磁盘上的保存路径，路径保存在 /tmp/kafka-logs/topic_partition，包含日志文件、索引文件和时间索引文件。

一、消息的文件存储机制

前面我们知道了一个 topic 的多个 partition 在物理磁盘上的保存路径，那么我们再来分析日志的存储方式。通过如下命令找到对应 partition 下的日志内容。

kafka是通过分段的方式将Log分为多个LogSegment，LogSegment是一个逻辑上的概念，一个 LogSegment对应磁盘上的一个日志文件和一个索引文件，其中日志文件是用来记录消息的。索引文件是用来保存消息的索引。那么这个LogSegment是什么呢？

LogSegment

假设 kafka 以 partition 为最小存储单位，那么我们可以想象当 kafka producer 不断发送消息，必然会引起 partition文件的无线扩张，这样对于消息文件的维护以及被消费的消息的清理带来非常大的挑战，所以 kafka 以 segment 为单位又把 partition 进行细分。每个 partition 相当于一个巨型文件被平均分配到多个大小相等的segment数据文件中（每个 segment 文件中的消息不一定相等），这种特性方便已经被消费的消息的清理，提高磁盘的利用率。

log.segment.bytes=107370 (设置分段大小),默认是1gb，我们把这个值调小以后，可以看到日志分段的效果

抽取其中 3 个分段来进行分析