Flink DataStream API没有

最新推荐文章于 2024-08-10 00:50:15 发布

edclol

最新推荐文章于 2024-08-10 00:50:15 发布

阅读量127

点赞数

分类专栏： flink 文章标签： flink

本文链接：https://blog.csdn.net/qq_43716478/article/details/105157202

版权

flink 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Spark DStream有mapPartition API,而Flink DataStream API没有.是否有人可以帮助解释原因.我想要做的是在Flink上实现类似于Spark reduceByKey的API.

Flink的流处理模型与以迷你批次为中心的Spark Streaming截然不同.在Spark Streaming中,每个迷你批处理都像有限数据集上的常规批处理程序一样执行,而Flink DataStream程序则连续处理记录.
在Flink的DataSet API中,MapPartitionFunction有两个参数.输入的迭代器和函数结果的收集器. Flink DataStream程序中的MapPartitionFunction永远不会从第一个函数调用返回,因为迭代器将迭代无休止的记录流.但是,Flink的内部流处理模型要求用户函数返回以便检查点功能状态.因此,DataStream API不提供mapPartition转换.

为了实现类似于Spark Streaming的reduceByKey的功能,您需要在流上定义一个键控窗口. Windows离散化的流有点类似于迷你批次,但窗口提供了更多的灵活性.由于窗口的大小有限,您可以调用窗口缩小窗口.

这可能看起来像：

yourStream.keyBy("myKey") // organize stream by key "myKey"
          .timeWindow(Time.seconds(5)) // build 5 sec tumbling windows
          .reduce(new YourReduceFunction); // apply a reduce function on each window

DataStream documentation显示了如何定义各种窗口类型并解释所有可用功能.

edclol

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink DataStream API没有

Spark DStream有mapPartition API,而Flink DataStream API没有.是否有人可以帮助解释原因.我想要做的是在Flink上实现类似于Spark reduceByKey的API.Flink的流处理模型与以迷你批次为中心的Spark Streaming截然不同.在Spark Streaming中,每个迷你批处理都像有限数据集上的常规批处理程序一样执行,而Fli...
复制链接

扫一扫

专栏目录