Kafka流式处理

最新推荐文章于 2024-05-14 23:40:13 发布

weixin_34405557

最新推荐文章于 2024-05-14 23:40:13 发布

阅读量9.4k

点赞数 7

文章标签：大数据 java 后端

原文链接：https://my.oschina.net/u/2424727/blog/2989115

版权

2019独角兽企业重金招聘Python工程师标准>>>

Kafka Streams

初识流式处理

什么是数据流

数据流（也叫事件流）是无边界数据集的抽象表示。无边界意味着无限和持续增长。无边界数据集之所以是无限的，是因为随着时间的推移，新记录会不断加入进来。数据流除了无边界还有以下特性：

数据流是有序的。事件的发生总是有先后顺序的，如先下单再发货
数据记录不可变。事件一旦发生，就不能被改变，如下单后，想要取消只会新产生一个事件
数据流是可重播的。

什么是流式处理

持续的从一个无边界的数据集读取数据，然后对它们进行处理并生成结果，就是流式处理。

流式处理是一种编程范式，就像请求和响应范式、批处理范式那样，下面是三种范式的比较：

请求和响应，这种范式的特点是延迟最小
批处理，这种范式的特点是高延迟和高吞吐量
流式处理，这种范式介于上面两种之间

什么是Kafka Streams

Kafka Streams是一个用于构建流式处理应用程序的客户端库，其中输入和输出数据是存储在Kafka集群中的。一个用Kakfa Streams搭建的流处理程序，它的架构如下图：

Kafka Streams的优点：

简单轻量级的客户端库，可以轻松嵌入到任何Java应用程序中；除了Kafka之外没有其他外部的依赖。所有可以轻松的整合到自己的应用中，也不需要为流式处理需求额外的的部署一个应用集群。
使用Kafka作为内部消息通讯存储介质，不需要重新加入其它外部组件来做消息通讯。值得注意的是，它使用Kafka的分区模型来水平扩展处理，同时保持强大的排序保证。
支持本地状态容错，可实现非常快速有效的有状态操作，如窗口连接和聚合。本地状态被保存在Kafka中，在机器故障的时候，其他机器可以自动恢复这些状态继续处理。
可以保证每个记录只处理一次，即使在处理过程中Streams客户端或Kafka代理发生故障时也只处理一次。
采用一条记录一次处理以实现毫秒处理延迟，并支持基于事件时间的窗口操作以及记录的延迟到达。
提供丰富的流式处理API，包括高级的Streams DSL和低级的Processor API。

核心概念

时间

时间在流式处理中非常的重要，因为大部分的流式处理都是基于时间窗的，如计算5分钟内用户的访问量，那么对于五分钟前的数据就不应该参与计算。

事件时间

事件时间是指事件的发生时间或事件的创建时间，如商品的出售时间，用户的访问时间。在Kakfa 0.10之后的版本，生产者会自动在记录中添加创建时间，如果与业务的事件时间不一致，那就需要手动设置这个时间。
日志追加时间

日志追加时间是指时间保存到kafka broker上的时间。
处理时间

处理时间是指我们的应用在收到事件后对其处理的时间。同一个事件的处理时间可能不同，这取决于不同的应用何时读取这个时间

状态

如果只是单独的处理每一个事件，那么这个流式处理就很简单，如从数据流中过滤出交易金额大于10000的数据，然后给这些交易人发个优惠券，这种需求我们用kafka的消费者客户端就完全能满足，但通常情况下我们的操作中会包含多个事件，如统计总数、平均数、最大值等。事件与事件之间的信息被称为状态。如我们卖了1双鞋，然后又买了2双鞋，经过这两个事件后，在现在这个时间，我们鞋数量的状态就是一双。

流表的二元性

在业务系统中，有时我们关注变化的过程，有时我们关注结果。流是一系列事件，每个事件就是一个变更；表包含了当前的状态，是多个变更所产生的结果。将流转换为表，叫做流的物化。我们捕获到表所发生的变更（insert、update、delete）事件，这些事件就组成了流。

窗口

在流处理中，我们的数据处理大部分都是基于窗操作的，如我们在分析股价的走势时，我们需要统计出的每天或者每个小时的内股价的平均价格，然后查看价格的一个走势，而不是直接统计从股票发行到现在的平均价，这个是没多大意义的，这里的每天或每个小时就是一个时间窗。

在Kafka streams中窗口有两种，时间窗口和会话窗口（其实会话窗口也是基于时间窗的）。

时间窗有两个重要的属性：窗口大小和步长(移动间隔)。

滚动窗口：步长等于窗口大小，滚动窗口是没有没有记录的重叠。
跳跃窗口：步长不等于窗口大小
滑动窗口：窗口随着每一条记录移动，滑动窗口不与时间对齐，而是与数据记录时间戳对齐。
会话窗口：会话窗口与时间窗最大的不同是，他的大小是不确定的（因为它的大小是由数据本身决定的）

看下图，这是一个时间间隔为5分钟的session窗口，先忽略图中迟到的两个记录，假设他们没迟到。

Processing Topology（拓扑）和Stream processor（流处理器）

在kakfa streams中，计算逻辑被定义为拓扑，它是一个操作和变换的集合，每个事件从输入到输出都会流经它。每个流式处理的应用至少会有一个拓扑。

流处理器是处理拓扑中的各个节点，代表拓扑中的每个处理步骤，用来完成数据转换功能，如过滤、映射、分组、聚合等。一个流处理器同一时间从上游接收一条输入数据，产生一个或多个输出记录到下个流式处理器。

一个拓扑中有两种特殊的的处理器：

Source Processor，没有上游处理器，从一个或多个Kafka topic为拓扑生成输入流。
Slink Processor，没有下游处理器，将从上游处理器接收的记录发送到指定的Kafka主题。

从三个示例来了解Kafka Streams 的应用

单词统计

将数据按空格拆分成单个单词，过滤掉不需要的单词，统计每个单词出现的次数

// 配置信息
Properties props = new Properties();
//Streams应用Id
props.put(StreamsConfig.APPLICATION_ID_CONFIG, "wordCount");
//Kafka集群地址
props.put(StreamsConfig.BOOTSTRAP_SERVERS_CONFIG, "192.168.195.88:9092");
//指定序列化和反序列化类型
props.put(StreamsConfig.DEFAULT_KEY_SERDE_CLASS_CONFIG, Serdes.String().getClass());
props.put(StreamsConfig.DEFAULT_VALUE_SERDE_CLASS_CONFIG, Serdes.String().getClass());

//创建一个topology构建器，在kakfa中计算逻辑被定义为连接的处理器节点的拓扑。
StreamsBuilder builder = new StreamsBuilder();
//使用topology构建器创建一个源流，指定源topic
KStream<String, String> source = builder.stream("wordCountInput");
// 构建topology
KStream<String, Long> wordCounts = source
    //把数据按空格拆分成单个单词
    .flatMapValues(textLine -> Arrays.asList(textLine.toLowerCase().split("\\W+")))
    //过滤掉the这个单词，不统计这个单词
    .filter((key, value) -> (!value.equals("the")))
    //分组
    .groupBy((key, word) -> word)
    //计数，其中'countsStore'是状态存储的名字
    .count(Materialized.<String, Long, KeyValueStore<Bytes, byte[]>>as("countsStore"))
    .toStream();

//将stream写回到Kafka的topic
wordCounts.to("wordCountOutput", Produced.with(Serdes.String(), Serdes.String()));
//创建Streams客户端
KafkaStre