Flink之数据流编程模型（上）

最新推荐文章于 2024-06-07 02:49:17 发布

alexdamiao

最新推荐文章于 2024-06-07 02:49:17 发布

阅读量310

点赞数

分类专栏： flink 大数据技术文章标签： flink 大数据架构数据分析流计算

本文链接：https://blog.csdn.net/alexdamiao/article/details/89913671

版权

本文介绍了Apache Flink的数据流编程模型，包括Stateful Stream Processing、DataStream/DataSet API和Table API。详细阐述了流式编程的概念，如Source、Transformation和Sink，并解释了并行数据流和执行链的原理。此外，文章还深入讨论了Flink的窗口机制，包括Keyed Window和Non-Keyed Window，以及基于时间、数据和会话的窗口类型。

摘要由CSDN通过智能技术生成

数据流编程模型

在这里插入图片描述
Statefule Stream Processing: 是最低级别（底层）的抽象，只提供有状态的流。它通过ProcessFunction嵌入到DataStream API之中。它使得用户可以自由处理来源于一个或者多个流的事件。

DataStream/DataSet API: 在我们的实际工作中，大多数的应用程序是不需要上文所描述的低级别（底层）抽象，而是相对于诸如DataStream API（有界/无界流）和DataSet API（有界数据集）的Core API进行编程。

Table API:是围绕着table的申明性DSL，可以被动态的改变（当其表示流时）。Table API遵循（扩展）关系模型:表有一个模式链接（类似与在关系数据库中的表），API也提供了一些类似的操作:select, project, join, group-by, aggregate等。

表和DataStream / DataSet之间可以无缝转换，允许程序混合使用Table API和DataStream 和DataSet API。

流式编程

用户实现的Flink程序是由Stream和Transformation这两个基本构建块组成：Stream是一个中间结果数据，而Transformation是一个操作，它对一个或多个输入Stream进行计算处理，输出一个或多个结果Stream。

当一个Flink程序被执行的时候，它会被映射为Streaming Dataflow。一个Streaming Dataflow是由一组Stream和Transformation Operator组成，它类似于一个DAG图，在启动的时候从一个或多个Source Operator开始，结束于一个或多个Sink Operator。下面是一个由Flink程序映射为Streaming Dataflow的示意图，如下所示：
在这里插入图片描述

上图中，FlinkKafkaConsumer是一个Source Operator，map、keyBy、timeWindow、apply是Transformation Operator，RollingSink是一个Sink Operator。

并行数据流

在Flink中，程序天生是并行和分布式的：一个Stream可以被分成多个Stream分区（Stream Partitions）

最低0.47元/天解锁文章

alexdamiao

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Flink之数据流编程模型（上）

DataSteam编程模型Statefule Stream Processing: 是最低级别（底层）的抽象，只提供有状态的流。它通过ProcessFunction嵌入到DataStream API之中。它使得用户可以自由处理来源于一个或者多个流的事件。DataStream/DataSet API: 在我们的实际工作中，大多数的应用程序是不需要上文所描述的低级别（底层）抽象，而是相对于诸如D...
复制链接

扫一扫

专栏目录