Kafka Offset原理与代码实例讲解

AI大模型应用之禅

已于 2024-06-05 15:02:04 修改

阅读量342

点赞数 8

分类专栏：一切皆是映射:AI人工智能与大数据原理与应用实战一切皆是映射:深度强化学习原理与应用实战一切皆是映射:人工智能数学基础原理与应用实战文章标签：计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA

于 2024-06-05 01:36:50 首次发布

本文链接：https://blog.csdn.net/2401_85133351/article/details/139457338

版权

一切皆是映射:人工智能数学基础原理与应用实战同时被 3 个专栏收录

814 篇文章 2 订阅

订阅专栏

一切皆是映射:AI人工智能与大数据原理与应用实战

806 篇文章 5 订阅

订阅专栏

一切皆是映射:深度强化学习原理与应用实战

798 篇文章 2 订阅

订阅专栏

Kafka Offset原理与代码实例讲解

1.背景介绍

1.1 什么是Kafka

Apache Kafka是一个分布式的流式处理平台,它具有高吞吐量、低延迟、高可伸缩性和持久性等特点,被广泛应用于日志收集、消息系统、数据管道等场景。Kafka以主题(Topic)的形式对消息进行分类,每个主题可以有一个或多个分区(Partition),消息以有序且不可变的方式存储在这些分区中。

1.2 Kafka的核心概念

Broker:Kafka集群中的每个服务器实例称为Broker。
Topic:一类消息的逻辑订阅单元,可以被划分为多个分区。
Partition:Topic的分区,每个分区都是一个有序、不可变的消息序列。
Producer:向Kafka发送消息的客户端。
Consumer:从Kafka订阅并消费消息的客户端。
Consumer Group:一组消费者的集合,同一个消费组内的消费者订阅同一个Topic的消息,并且消息只会被消费一次。
Offset:消息在分区中的位置,用于标识消费者消费到哪个位置。

1.3 Offset的重要性

Offset是Kafka消费者与消息之间的桥梁,它记录了消费者消费到哪个位置,确保消息不会被重复消费或者丢失。Offset的正确管理对于保证Kafka的消息传递可靠性至关重要。因此,了解Kafka Offset的原理和管理方式对于使用Kafka至关重要。

2.核心概念与联系

2.1 Offset的存储位置

Kafka中的Offset存储在两个地方:

Zookeeper:在Kafka较早的版本中,Offset存储在Zookeeper中。每个Consumer Group都有一个专门的Znode路径来存储它消费的所有Topic的Offset。
内部主题__consumer_offsets:从Kafka 0.9版本开始,Offset默认存储在一个名为__consumer_offsets的内部压缩主题中。这种方式比Zookeeper更加高效和可靠。

无论存储在哪里,Offset的存储结构都是以Consumer Group、Topic、Partition为维度进行组织的。

2.2 Offset的分类

Kafka中有三种类型的Offset:

Committed Offset:已提交的Offset,表示消费者已经成功消费的消息位置。
Current Position:消费者当前消费的位置,也称为Consumer Position。
Log End Offset:分区中最后一条消息的Offset,也称为Log End Position或High Watermark。

这三种Offset之间的关系如下:

Committed Offset <= Current Position <= Log End Offset

2.3 Offset的提交方式

消费者可以通过以下两种方式提交Offset:

自动提交(Automatic Commit):Kafka消费者客户端会周期性地自动提交Offset。
手动提交(Manual Commit):开发者可以在代码中手动控制Offset的提交时机。

手动提交Offset的优点是可以更好地控制Offset的提交时机,避免数据重复消费或丢失。但需要开发者自己编写提交Offset的逻辑,增加了代码复杂度。

3.核心算法原理具体操作步骤

3.1 消费者消费消息流程

下面是Kafka消费者消费消息的基本流程:

消费者向Broker发送获取分区消息的请求。
Broker返回指定分区的消息。
消费者处理消息。
消费者提交Offset。

其中,第4步是最关键的一步,它决定了消费者下次从哪个位置开始消费消息。如果Offset提交得太早,可能会导致重复消费;如果Offset提交得太晚,可能会导致消息丢失。

3.2 Offset提交算法

Kafka消费者在提交Offset时,会执行以下算法:

1. 获取分区的Log End Offset
2. 计算Offset提交范围
   如果是自动提交:
     提交范围 = [上次提交的Offset, Current Position)
   如果是手动提交:
     提交范围 = [指定的Offset, Current Position)
3. 遍历提交范围内的Offset,将它们提交到__consumer_offsets主题
4. 更新本地的Committed Offset

这个算法保证了:

只提交已经消费过的Offset。
不会提交超过Current Position的Offset。

3.3 Offset重置

在某些情况下,消费者需要重置Offset,从指定的位置重新开始消费。Kafka提供了三种Offset重置策略:

earliest:将Offset重置为最早的Offset,即从分区的开头重新消费。
latest:将Offset重置为最新的Offset,即从分区的最新位置开始消费,可能会丢失一些消息。
anything:抛出异常,由开发者自己处理Offset重置。

4.数学模型和公式详细讲解举例说明

在Kafka中,Offset的计算和管理涉及到一些数学模型和公式,下面将详细讲解其中的几个重要概念。

4.1 Log Segment

Kafka将每个分区的消息存储在一系列的Log Segment文件中。每个Log Segment文件都有一个基础Offset,表示该文件中第一条消息的Offset。Log Segment文件的命名规则如下:

${Topic名称}-${分区编号}-${基础Offset}.log

例如,一个名为my-topic的Topic,第0个分区的第一个Log Segment文件可能命名为my-topic-0-0000000000.log。

Log Segment文件的大小是固定的,当一个文件写满后,Kafka会自动创建一个新的Log Segment文件。因此,一个分区的所有消息被分散存储在多个Log Segment文件中。

4.2 Log Segment Rolling

Kafka会定期执行Log Segment Rolling操作,将活跃的Log Segment文件关闭,并创建一个新的Log Segment文件。Log Segment Rolling的触发条件有以下几种:

时间触发:如果当前Log Segment文件的最后一条消息的时间戳与现在的时间戳相差超过了log.roll.hours配置项指定的小时数,则触发Rolling。
大小触发:如果当前Log Segment文件的大小超过了log.segment.bytes配置项指定的字节数,则触发Rolling。

Log Segment Rolling的目的是防止单个Log Segment文件过大,影响Kafka的性能和可靠性。

4.3 Log Cleanup

为了控制Kafka集群的存储空间占用,Kafka会定期执行Log Cleanup操作,删除过期的消息和Log Segment文件。Log Cleanup的策略由log.cleanup.policy配置项决定,有以下两种策略:

delete:基于消息的保留时间(log.retention.hours)删除过期的消息和Log Segment文件。
compact:基于键(Key)的等值性,只保留每个键最后修改的值,删除重复的键值对。

无论采用哪种策略,Log Cleanup都会导致Offset的变化。因此,在执行Log Cleanup之前,Kafka会计算出一个Offset,称为High Watermark(HW),表示可以安全删除的最小Offset。HW的计算公式如下:

$\min_{i \in \text{ConsumerGroups}}(\min_{j \in \text{Partitions}}(O_{i,j}))$

其中:

$i$ 表示Consumer Group的编号
$j$ 表示分区的编号
$O_{i,j}$ 表示Consumer Group $i$ 在分区 $j$ 上的Committed Offset

也就是说,HW是所有Consumer Group在所有分区上的最小Committed Offset。Kafka只会删除小于HW的Offset对应的消息和Log Segment文件。

通过这种方式,Kafka可以确保已提交的Offset对应的消息不会被删除,从而保证消息的可靠性。

5.项目实践:代码实例和详细解释说明

下面将通过一个简单的Java示例代码,演示如何手动提交Offset。

5.1 准备工作

首先,需要在pom.xml文件中添加Kafka客户端的依赖:

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-clients</artifactId>
    <version>2.8.0</version>
</dependency>

5.2 创建Kafka消费者

// 配置Kafka消费者属性
Properties props = new Properties();
props.setProperty("bootstrap.servers", "localhost:9092");
props.setProperty("group.id", "my-group");
props.setProperty("enable.auto.commit", "false"); // 禁用自动提交Offset
props.setProperty("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");
props.setProperty("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer");

// 创建Kafka消费者实例
KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);

// 订阅主题
consumer.subscribe(Collections.singletonList("my-topic"));

上面的代码创建了一个Kafka消费者实例,并订阅了名为my-topic的主题。注意,我们将enable.auto.commit设置为false,表示禁用自动提交Offset,需要手动提交。

5.3 消费消息并手动提交Offset

try {
    while (true) {
        // poll消息
        ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
        for (ConsumerRecord<String, String> record : records) {
            // 处理消息
            System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
        }

        // 手动提交Offset
        consumer.commitAsync();
    }
} finally {
    consumer.close();
}

上面的代码使用一个无限循环不断地poll消息,并对每条消息进行处理。在处理完所有消息后,调用consumer.commitAsync()方法手动提交Offset。

commitAsync()方法是一个异步操作,它会在后台线程中执行Offset提交操作。如果需要等待Offset提交完成,可以调用commitAsync().get()方法,它会阻塞当前线程,直到Offset提交完成。

5.4 同步提交Offset

除了异步提交Offset,Kafka还支持同步提交Offset。下面是一个同步提交Offset的示例代码:

try {
    while (true) {
        ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
        for (ConsumerRecord<String, String> record : records) {
            System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
        }

        // 同步提交Offset
        consumer.commitSync();
    }
} finally {
    consumer.close();
}

在上面的代码中,我们调用了consumer.commitSync()方法同步提交Offset。这个方法会阻塞当前线程,直到Offset提交完成。

需要注意的是,同步提交Offset可能会影响消费者的性能,因为它需要等待Offset提交完成才能继续处理下一批消息。在实际应用中,建议使用异步提交Offset,以提高消费者的吞吐量。

5.5 指定提交的Offset

在某些情况下,我们可能需要手动指定要提交的Offset,而不是使用当前的Consumer Position。下面是一个指定提交Offset的示例代码:

try {
    while (true) {
        ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
        for (ConsumerRecord<String, String> record : records) {
            System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
        }

        // 指定提交的Offset
        Map<TopicPartition, OffsetAndMetadata> offsetMap = new HashMap<>();
        for (TopicPartition partition : records.partitions()) {
            long offset = records.records(partition).get(0).offset();
            offsetMap.put(partition, new OffsetAndMetadata(offset + 1));
        }
        consumer.commitAsync(offsetMap, null);
    }
} finally {
    consumer.close();
}

在上面的代码中,我们首先构建了一个Map<TopicPartition, OffsetAndMetadata>对象,用于存储要提交的Offset。对于每个分区,我们取出第一条消息的Offset,并将其加1作为要提交的Offset。

然后,我们调用consumer.commitAsync(offsetMap, null)方法,传入构建好的Offset Map,从而手动指定要提交的Offset。

需要注意的是,指定提交的Offset必须大于或等于当前的Consumer Position,否则Kafka会抛出OffsetOutOfRangeException异常。

6.实际应用场景

Kafka Offset的正确管理对于保证消息传递的可靠性至关重要,在许多实际应用场景中非常重要。

AI大模型应用之禅

关注

8
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Kafka Offset原理与代码实例讲解

Apache Kafka是一个分布式的流式处理平台,它具有高吞吐量、低延迟、高可伸缩性和持久性等特点,被广泛应用于日志收集、消息系统、数据管道等场景。Kafka以主题(Topic)的形式对消息进行分类,每个主题可以有一个或多个分区(Partition),消息以有序且不可变的方式存储在这些分区中。
复制链接

扫一扫