flink入门基础知识整理（持续更新）

最新推荐文章于 2023-08-04 00:08:48 发布

大胡在进步

最新推荐文章于 2023-08-04 00:08:48 发布

阅读量3.2k

点赞数

文章标签： java 分布式实时大数据大数据 flink

本文链接：https://blog.csdn.net/weixin_42396063/article/details/121373276

版权

2.4 数据转换处理（Transformation）

1.入门概念

1.1 核心特点

按照老中少三代来区分大数据框架，老一代为处理流式数据的storm，中一带为处理批式数据的hadoop、spark（微批为流），少一代为本文章描述的 flink，自从阿里接管 flink 的开源后，今天的 flink已经已经十分强大，兼有批流一体、高容错、高吞吐低延迟、大规模计算、多平台部署等核心特点

1.1.1 批流数据

传统的大数据理解中，数据源源不断的产生，没有终止，同时也积累的许多。针对以上，源源不断的来的即为流式数据（无界数据），积累的一批为批式数据（有界数据）。批数据除了是已经产生的数据，还可以由流式数据作一定规则的细分截取产生。具体的的应用应视情况而定，可以针对流式数据作聚合操作，也可以等攒齐了一次性操作。Flink同时支持对流式数据操作和批示数据操作，且强于以上框架。

1.1.2 容错能力

Flink容错能力主要有三种：依赖于集群管理、依赖于协调组件、依赖于自身快照机制

一：集群管理

Flink支持多平台部署，其中k8s之类的容器集群管理平台本身自带当进程挂掉时，重启新进程接管工作的功能。

二：协调组件

Flink可通过相应配置开启HA模式，依赖于Zookeeper的分布式协调服务。

三：快照机制

Flink通过设计检查点和状态存储，来保证重启后可接着上次断点后继续工作。

1.1.3 高吞吐低延迟

Flink除了在计算、传输、序列化做了优化外，得益于本身的快照机制，不依赖会产生阻塞的调度，从而可以持续处理数据

1.1.4 大规模复杂计算

计算方面也得益于 flink本身的容错机制和状态存储设置，可以使 flink已聚合的方式逐批处理数据，并聚合保存之前和现有的状态于本地内存中（数据是否共享有待研究，个人觉得是共享的），如此一来可以极大的降低大数据的调度】管理等

1.1.5 多平台部署

和其他常见组件或应用一样，flink支持容器化部署、云部署等

2.API 介绍

2.1 API层次

最下层，为有状态流式编程，它提供了ProcessFunctionAPI。flink在这个底层api上帮我们实现了最基础的流式处理能力，我们可以在上门进行有状态编程，并且我们可以自定义定时器，可以实现复杂的时间语义处理。
core api层，flink提供了DataStreamAPI和DataSetAPI（逐步被舍弃）。这两个API提供了数据处理的基本操作：各种数据转化，分组，开窗，状态编程等等。
Table API是基于表的声明式dsl。它与DataStream区别主要在以下几个方面：遵循关系型数据模型，自带schema，提供了类sql操作，如select，project，join，group-by等等。
flink提供的最高层api是flink-sql。它的抽象层次与Table API类似，但是允许用户直接写sql便可以执行job。

这四层关系很好理解，上层是下层的通用性封装，若不满足个性化需求场景，可自己根据下层api自定义开发，但最低为状态流的处理。

2.2 DataStream体系

DataStream: 其为 Flink 数据流的核心抽象，其上定义了对数据流的一系列操作，同时也定义了与其他类型DataStream的相互转化关系。每个DataStream都有一个transformation对象，表示该DataStream 从上游的 DataStream 使用该 Transformation而来。
SingleOutputStreamOperator:旁路输出，主要用来看过程信息
KeyedStream:其用来表示根据指定的key（针对某个值）进行分组的数据流。
SplitStream：其用来将流根据标记（针对，讴歌属性）划分成多个流，再通过select()获取指定（值）的流
DataStreamSource:其为DataStream的起点，由环境对象的 StreamExcutionEnvironment.addSource（SourceFunction）创建而来,其中的 SourceFunction定义了从数据源获取数据的具体逻辑
IterativeStream:迭代流，Flink的Datastream正常情况下是不会结束的，所以也没有所谓的最大迭代次数。这种情况下，你需要自己指定哪个类型的数据需要回流去继续迭代，哪个类型的数据继续向下传输，这个分流的方式有两种：split和filter。
BroadcastConnectedStream && BroadcastStream: BroadcastStreams实际上是对一个普通的DataStream的封装，提供里广播行为；BroadcastConnectedStream则是BroadcastStreams与DataStream链接而来。
QueryableStateStream:类似于一个接收器，无法进行进一步转换, 接收传入的数据(内部或者外部)并更新状态
AllWindowedStream&&WindowedStream: WindowedStream代表了根据key分组且基于WindowAssigner切分窗口的数据流。所以Windowed都是KeyedStream衍生而来，在WindowedStream进行的任何转化也都将转会变为DataStream
JoinedStreams&& CoGroupedStreams:join是COGroup的一种特例，JoinedStreams底层使用的COGroupStreams来实现。CoGroup侧重于Group，对数据进行分组，是对同一个key上的两组集合进行操作，而join侧重的是数据对，对同一个key上的每一对元素进行操作。CoGroup更通用，单join比较常见。
ConnectedStreams:其表示两个数据流的组合，数据流类型可以不一样。整合后的数据流共享 state。一种典型的场景就是两个流中一种是业务流，一种是规则流，业务流根据规则流来对数据进行处理。
AsyncDataStream:是一个工具，提供在DataStream上使用异步函数的能力
DataStreamSink:由 DataStream。addSink(SinkFunction)创建而来，其中SinkFunction定义了写出数据到外部存储的具体逻辑。