使用Apache Kafka Streams处理实时数据流

最新推荐文章于 2025-03-03 11:35:02 发布

4sunnyh

最新推荐文章于 2025-03-03 11:35:02 发布

阅读量106

点赞数

使用Apache Kafka Streams处理实时数据流

大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天我们来讨论如何使用Apache Kafka Streams处理实时数据流。

一、什么是Kafka Streams

Kafka Streams是Apache Kafka的一个流处理库，允许开发者以简洁和高效的方式处理和分析数据流。它是一个客户端库，与Kafka的生产者和消费者API紧密集成，支持无状态和有状态的流处理。

二、准备工作

在开始之前，确保已经搭建了Kafka集群，并且在Maven项目中添加了Kafka Streams的依赖。以下是pom.xml中需要添加的依赖：

<dependency>
    <groupId>org.apache.kafka</groupId>
    <artifactId>kafka-streams</artifactId>
    <version>2.8.0</version>
</dependency>

三、配置Kafka Streams

在使用Kafka Streams之前，需要对其进行配置。以下是一个基本的配置示例：

package cn.juwatech.streams;

import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.StreamsConfig;

import java.util.Properties;

public class KafkaStreamsConfig {
    public static Properties createProperties() {
        Properties props = new Properties();
        props.put(StreamsConfig.APPLICATION_ID_CONFIG, "streams-example");
        props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "localhost:9092");
        props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
        props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
        return props;
    }
}

四、创建StreamBuilder

StreamBuilder用于定义处理拓扑，即数据从输入到输出的流动和处理过程。下面是一个简单的例子，展示如何使用StreamBuilder构建一个流应用，将输入主题的数据进行转换后写入输出主题：

package cn.juwatech.streams;

import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.StreamsConfig;
import org.apache.kafka.streams.kstream.KStream;

import java.util.Properties;

public class SimpleStreamProcessor {
    public static void main(String[] args) {
        Properties props = KafkaStreamsConfig.createProperties();
        
        StreamsBuilder builder = new StreamsBuilder();
        KStream<String, String> sourceStream = builder.stream("input-topic");

        sourceStream.mapValues(value -> "Processed: " + value)
                    .to("output-topic");

        KafkaStreams streams = new KafkaStreams(builder.build(), props);
        streams.start();

        // 添加钩子以便关闭时清理资源
        Runtime.getRuntime().addShutdownHook(new Thread(streams::close));
    }
}

在这个例子中，数据从input-topic主题读取，并通过mapValues方法对数据进行处理，将其前面加上"Processed:"前缀，然后写入output-topic主题。

五、处理有状态操作

Kafka Streams支持有状态的流处理，例如聚合、窗口操作等。下面是一个示例，展示如何对数据进行按键分组和计数操作：

package cn.juwatech.streams;

import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.kstream.KGroupedStream;
import org.apache.kafka.streams.kstream.KStream;
import org.apache.kafka.streams.kstream.Materialized;
import org.apache.kafka.streams.kstream.Serialized;

import java.util.Properties;

public class StatefulStreamProcessor {
    public static void main(String[] args) {
        Properties props = KafkaStreamsConfig.createProperties();
        
        StreamsBuilder builder = new StreamsBuilder();
        KStream<String, String> sourceStream = builder.stream("input-topic");

        KGroupedStream<String, String> groupedStream = sourceStream.groupByKey(Serialized.with(Serdes.String(), Serdes.String()));
        
        groupedStream.count(Materialized.as("counts-store"))
                     .toStream()
                     .to("counts-output-topic");

        KafkaStreams streams = new KafkaStreams(builder.build(), props);
        streams.start();

        Runtime.getRuntime().addShutdownHook(new Thread(streams::close));
    }
}

在这个例子中，groupByKey方法将流按键分组，然后使用count方法对每个键的记录进行计数，最后将计数结果写入counts-output-topic主题。

六、窗口操作

窗口操作是流处理中常见的需求，Kafka Streams支持基于时间的窗口操作。以下是一个示例，展示如何进行窗口聚合：

package cn.juwatech.streams;

import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.KafkaStreams;
import org.apache.kafka.streams.StreamsBuilder;
import org.apache.kafka.streams.kstream.KStream;
import org.apache.kafka.streams.kstream.Materialized;
import org.apache.kafka.streams.kstream.TimeWindows;
import org.apache.kafka.streams.kstream.Windowed;

import java.time.Duration;
import java.util.Properties;

public class WindowedStreamProcessor {
    public static void main(String[] args) {
        Properties props = KafkaStreamsConfig.createProperties();

        StreamsBuilder builder = new StreamsBuilder();
        KStream<String, String> sourceStream = builder.stream("input-topic");

        sourceStream.groupByKey()
                    .windowedBy(TimeWindows.of(Duration.ofMinutes(1)))
                    .count(Materialized.as("windowed-counts-store"))
                    .toStream()
                    .map((Windowed<String> key, Long count) -> new KeyValue<>(key.key(), count.toString()))
                    .to("windowed-output-topic");

        KafkaStreams streams = new KafkaStreams(builder.build(), props);
        streams.start();

        Runtime.getRuntime().addShutdownHook(new Thread(streams::close));
    }
}