java消费kafka数据不重复消费

最新推荐文章于 2024-10-16 16:34:42 发布

weixin_41100535

最新推荐文章于 2024-10-16 16:34:42 发布

阅读量41

点赞数

文章标签： java kafka 数据库开发语言分布式

我整理的一些关于【java】的项目学习资料（附讲解～～）和大家一起分享、学习一下：

https://d.51cto.com/bLN8S1

Java 消费 Kafka 数据不重复消费的实现指南

随着大数据技术的迅速发展，Kafka 作为一种高性能的消息队列，被越来越多的企业广泛使用。在Kafka中，如何确保数据的无重复消费是一个重要的课题。本文将带领你了解如何实现“Java消费Kafka数据不重复消费”的完整流程。

流程概述

以下是实现 Java 消费 Kafka 数据不重复消费的主要流程：

步骤	说明
1	环境准备：设置 Kafka 环境并安装相关依赖
2	创建 Kafka 消费者并配置其属性
3	消费消息并进行去重处理
4	处理消息后的确认与存储
5	监控与优化消费过程

甘特图

以下是整个流程的甘特图表示：

每一步的详细说明及代码示例

1. 环境准备

首先要确保你的计算机上已经安装了 Java 和 Kafka，同时需要添加相应的 Maven 依赖。

Maven 依赖

在 pom.xml 中添加以下依赖：

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-clients</artifactId>
    <version>3.0.0</version>
</dependency>

2. 创建 Kafka 消费者

创建 Kafka 消费者前，你需要进行一些配置。

import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.clients.consumer.KafkaConsumer;
import org.apache.kafka.clients.consumer.ConsumerRecords;
import org.apache.kafka.clients.consumer.ConsumerRecord;
import org.apache.kafka.common.serialization.StringDeserializer;

import java.util.Collections;
import java.util.Properties;

public class Consumer {
    public static void main(String[] args) {
        // 配置 Kafka 消费者
        Properties props = new Properties();
        props.put(ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092"); // Kafka 地址
        props.put(ConsumerConfig.GROUP_ID_CONFIG, "your-group-id"); // 消费者组 ID
        props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
        
        // 创建 Kafka 消费者
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList("your-topic")); // 订阅主题
        
        // 消费消息
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100); // 设置轮询的时间间隔
            for (ConsumerRecord<String, String> record : records) {
                System.out.printf("offset = %d, key = %s, value = %s%n", record.offset(), record.key(), record.value());
            }
        }
    }
}

3. 消费消息并进行去重处理

去重可以采用一些逻辑来确保某条消息不会被重复处理。例如，我们可以使用一个 Set 来存储已经处理过的 messageId。

import java.util.HashSet;

public class Consumer {
    private static HashSet<String> processedMessages = new HashSet<>(); // 用于存储已处理的消息ID

    public static void main(String[] args) {
        // 配置代码省略
        KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
        consumer.subscribe(Collections.singletonList("your-topic"));
        
        while (true) {
            ConsumerRecords<String, String> records = consumer.poll(100);
            for (ConsumerRecord<String, String> record : records) {
                // 消息ID假设为 record.key()
                String messageId = record.key();
                
                // 判断消息是否已经处理过
                if (!processedMessages.contains(messageId)) {
                    processedMessages.add(messageId); // 添加到已处理集合
                    System.out.printf("Processing message [ID: %s, Value: %s]%n", messageId, record.value());
                    
                    // 在这里进行其他处理
                } else {
                    System.out.println("Duplicate message [ID: " + messageId + "] skipped.");
                }
            }
        }
    }
}

4. 处理消息后的确认与存储

你可以在处理完消息后确认并且将结果存储到数据库或其他持久性存储中。通过适当的方式实现确认（例如利用 Kafka 的 Offset 提交）：

import org.apache.kafka.clients.consumer.OffsetAndMetadata;
import org.apache.kafka.common.TopicPartition;

...

// 在处理完数据之后，提交 Offset
consumer.commitSync();

5. 监控与优化消费过程

可以通过监控工具，比如 Kafka Manager，来观察消费进度，并根据监控数据来进行相关优化。

饼状图

以下是 Kafka 数据消费情况的饼状图，展示成功消费和重复消费的比例：

总结

通过以上步骤，我们成功实现了使用 Java 消费 Kafka 数据的功能，并且确保了数据的无重复消费。我们使用了 Set 数据结构来存储已处理过的消息 ID，从而避免了重复处理。同时，对消费过程进行监控和优化，确保应用程序的稳定性与效率。希望这篇文章能够帮助你更好地理解 Kafka 消费的实现流程。

整理的一些关于【java】的项目学习资料（附讲解～～），需要自取：

https://d.51cto.com/bLN8S1

原创作者: u_16213351 转载于: https://blog.51cto.com/u_16213351/11839235