Kafka学习-----文件存储机制和分片索引

最新推荐文章于 2024-05-17 00:15:00 发布

Atomatom98

最新推荐文章于 2024-05-17 00:15:00 发布

阅读量573

点赞数

分类专栏： Kafka

本文链接：https://blog.csdn.net/bupttulongming/article/details/109281005

版权

Kafka 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

一.Kafka工作流程

1.整体架构

在这里插入图片描述

消息交互两方分别是生产者Producer和消费者Consumer，Kafka集群Cluster中，有三个broker，类似于三个实例。其中针对同一个Topic A有三个不同分区Partition，每个都有自己的follower（备份用）。

2.需要注意⚠️：

Kafka 中消息是以 topic 进行分类的，生产者生产消息，消费者消费消息，都是面向 topic 的。
topic 是逻辑上的概念，而 partition 是物理上的概念，每个 partition 对应于一个 log 文件，该 log 文件中存储的就是 producer 生产的数据。
Producer 生产的数据会被不断追加到该 log 文件末端，且每条数据都有自己的 offset。消费者组中的每个消费者，都会实时记录自己消费到了哪个 offset，以便出错恢复时，从上次的位置继续消费。

二.分片索引机制

由于生产者生产的消息会不断追加到 log 文件末尾，为防止 log 文件过大导致数据定位效率低下，Kafka 采取了分片和索引机制，将每个 partition 分为多个 segment。每个 segment 对应两个文件——“.index”文件和“.log”文件。

在这里插入图片描述

这些文件位于一个文件夹下，该文件夹的命名规则为:topic 名称+分区序号。例如，first 这个 topic 有三个分区，则其对应的文件夹为 first- 0,first-1,first-2。

其中的文件内容如下：

00000000000000000000.index //每个segment都有一个.index文件一个.log文件
00000000000000000000.log 
00000000000000170410.index 
00000000000000170410.log 
00000000000000239430.index 
00000000000000239430.log

index 和 log 文件以当前 segment 的第一条消息的 offset 命名 。