Kafka Stream提供了对存储于Kafka内的数据进行流式处理和分析的功能。
使用kafkaStream将kafka输入一个topic的数据,以实时流的方式写入到另一个topic
中间可以对数据进行“加工”,对截取到的数据累加后在放到另一个topic中
首先新建两个kafka topic 一个用来作为第一接受数据topic,另一个用来接收转发数据topic
suminput为接收数据topic
kafka-topics.sh --zookeeper 192.168.150.100:2181 --create --topic suminput--partitions 1 --replication-factor 1
sumoutput为接收转发数据topic
kafka-topics.sh --zookeeper 192.168.150.100:2181 --create --topic sumoutput--partitions 1 --replication-factor 1
在idea新建maven工程
新建Java程序
在pom.xml中添加
输入以下代码并运行
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka_2.11</artifactId>
<version>2.0.0</version>
</dependency>
<dependency>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-streams</artifactId>
<version>2.0.0</version>
</dependency>
package flume.kafkaStreaming;
import org.apache.kafka.clients.consumer.ConsumerConfig;
import org.apache.kafka.common.serialization.Serdes;
import org.apache.kafka.streams.*;
import org.apache.kafka.streams.kstream.KStream;
import org.apache.kafka.streams.kstream.KTable;
import java.util.Properties;
import java.util.concurrent.CountDownLatch;
/**
* @Author BalalaXSTAR
* @Date 2021-05-27-10:03
* @Description 将输入的数据 累加起来发送到另一个 topic
*/
public class sumStreamDemo {
public static void main(String[] args) {
//连接
Properties prop = new Properties();
//一个应用一个组,消费者组的概念
prop.put(StreamsConfig.APPLICATION_ID_CONFIG, "sum");
prop.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.150.100:9092");
prop.put(StreamsConfig.COMMIT_INTERVAL_MS_CONFIG, 3000);
prop.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, "false");
prop.put(ConsumerConfig.AUTO_OFFSET_RESET_CONFIG, "earliest");
prop.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
prop.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());
//创建流构造器
StreamsBuilder builder = new StreamsBuilder();
//用构造好的builder suminput topic 里面的数据写到 suminoutput topic中
KStream<Object, Object> source = builder.stream("suminput");
//----------------------------------------------------------------------------------
//KStreaming没有边界 取出其中的一部分叫 KTable
//KTable有边界,就可以进行分组聚合
//source =[ null 4, null 5,null 3]
KTable<String, String> sum1 = source.map((key, value) ->
new KeyValue<String, String>("sum", value.toString())
) //[sum 4,sum 5,sum 3]
.groupByKey()
.reduce((x, y) -> {
Integer sum = Integer.valueOf(x) + Integer.valueOf(y);
System.out.println("x:" + x + " y" + y + "=" + sum);
return sum.toString();
});
//----------------------------------------------------------------------------------
//将提取到的数据处理过后 再转成流写入到另一个topic
sum1.toStream().to("sumoutput");
//构建Topology
Topology topo = builder.build();
//创建kafka对象
final KafkaStreams streams = new KafkaStreams(topo, prop);
final CountDownLatch latch = new CountDownLatch(1);
Runtime.getRuntime().addShutdownHook(new Thread("sum") {
@Override
public void run() {
streams.close();
latch.countDown();
}
});
try {
streams.start();
latch.await();
} catch (InterruptedException e) {
e.printStackTrace();
}
System.exit(0);
}
}
效果
当消息生产者输入数字78,kafka从流中截取存入KTable并与前一条数据0进行相加,得到78,再输入12,得到结果90。
在kafka中启动suminput生产消息
[root@host00 ~]# kafka-console-producer.sh --topic suminput --broker-list 192.168.150.100:9092
>78
>12
>10
>10
启动sumoutput显示消费信息
[root@host00 ~]# kafka-console-consumer.sh --topic sumoutput --bootstrap-server 192.168.150.100:9092 --from-beginning
78
90
100
110