Kafka（第三节）Kafka机制解释、配置文件说明、Kafka-eagle安装和使用、Flume与Kafka整合

本文链接：https://blog.csdn.net/hwq317622817/article/details/112792531

本文深入探讨Kafka的Log存储、查询机制，包括日志目录结构、offset查找过程和Message物理结构。讲解了Kafka的数据不丢失机制，涉及生产者、Broker和消费者的策略。此外，介绍了Kafka如何在CAP理论中取舍，重点分析了其一致性与可用性。还详述了Kafka配置文件，如Server.properties、producer和consumer配置，并分享了Kafka-eagle的安装和使用步骤，以及Flume与Kafka的整合实践。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

kafka的log存储以及查询机制

kafka中log日志目录及组成

kafka中log日志目录及组成
kafka在我们指定的log.dir目录下，会创建一些文件夹；名字是【主题名字-分区名】所组成的文件夹。在【主题名字-分区名】的目录下，会有两个文件存在，如下所示：

#索引文件
00000000000000000000.index
#日志内容
00000000000000000000.log

在目录下的文件，会根据log日志的大小进行切分，.log文件的大小为1G的时候，就会进行切分文件；
在这里插入图片描述
在kafka的设计中，将offset值作为了文件名的一部分
比如：topic的名字为：test，有三个分区，生成的目录如下如下所示：

test-0
test-1
test-2

kafka日志的组成
segment File组成：由两个部分组成，分别为index Fille和data File，此两个文件一一对应且成对出现；后缀.index和.log分别表示为segment的索引文件、数据文件。

segment文件命名规则：partion全局的第一个segment从0开始，后续每个segment文件名为上一个全局 partion的最大offset（偏移message数）。数值最大为64位long大小，19位数字字符长度，没有数字就用0 填充。
在这里插入图片描述
通过索引信息可以快速定位到message。通过index元数据全部映射到memory，可以避免segment File的IO磁盘操作；
通过索引文件稀疏存储，可以大幅降低index文件元数据占用空间大小。稀疏索引：为了数据创建索引，但范围并不是为每一条创建，而是为某一个区间创建；
好处：就是可以减少索引值的数量。
不好的地方：找到索引区间之后，要得进行第二次处理。

kafka的offset查找过程

在这里插入图片描述
比如：要查找绝对offset为7的Message：
上图的左半部分是索引文件，里面存储的是一对一对的key-value，其中key是消息在数据文件（对应的log文件）中的编号，比如“1,3,6,8……”，
分别表示在log文件中的第1条消息、第3条消息、第6条消息、第8条消息……，那么为什么在index文件中这些编号不是连续的呢？
这是因为index文件中并没有为数据文件中的每条消息都建立索引，而是采用了稀疏存储的方式，每隔一定字节的数据建立一条索引。
这样避免了索引文件占用过多的空间，从而可以将索引文件保留在内存中。
但缺点是没有建立索引的Message也不能一次定位到其在数据文件的位置，从而需要做一次顺序扫描，但是这次顺序扫描的范围就很小了。