【Flink】基本概念

最新推荐文章于 2023-06-08 21:14:30 发布

Eason-Sun

最新推荐文章于 2023-06-08 21:14:30 发布

阅读量220

点赞数 1

分类专栏：大数据文章标签： Flink

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36228538/article/details/95928869

版权

大数据专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一. Apache Flink 的定义、架构及原理

Apache Flink 是一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态或无状态的计算，能够部署在各种集群环境，对各种规模大小的数据进行快速计算。

1. Flink 应用

相关概念：

Streams（流），分为有限数据流与无限数据流，unbounded stream 是有始无终的数据流，即无限数据流；而 bounded stream 是限定大小的有始有终的数据集合，即有限数据流，二者的区别在于无限数据流的数据会随时间的推演而持续增加，计算持续进行且不存在结束的状态，相对的有限数据流数据大小固定，计算最终会完成并处于结束的状态。
State（状态），状态是计算过程中的数据信息，在容错恢复和 Checkpoint 中有重要的作用，流计算在本质上是 Incremental Processing（递增处理），因此需要不断查询保持状态；另外，为了确保 Exactly- once 语义，需要数据能够写入到状态中；而持久化存储，能够保证在整个分布式系统运行失败或者挂掉的情况下做到 Exactly- once，这是状态的另外一个价值。
Time，分为 Event time、Ingestion time、Processing time，Flink 的无限数据流是一个持续的过程，时间是我们判断业务状态是否滞后，数据处理是否及时的重要依据。
API，API 通常分为三层，由上而下可分为 SQL / Table API、DataStream API、ProcessFunction 三层，API 的表达能力及业务抽象能力都非常强大，但越接近 SQL 层，表达能力会逐步减弱，抽象能力会增强，反之，ProcessFunction 层 API 的表达能力非常强，可以进行多种灵活方便的操作，但抽象能力也相对越小

二.「有状态的流式处理」概念解析

1. 流式处理

流式处理简单来讲即有一个无穷无尽的数据源在持续收取数据，以代码作为数据处理的基础逻辑，数据源的数据经过代码处理后产生出结果，然后输出，这就是流式处理的基本原理。

2. 分布式流式处理

在这里插入图片描述
首先，设定相应的 key，根据key对流进行分区，然后让同样 key 的数据流到同一个 Operator instance 做同样的运算。然后每个计算实例（Operator Instances)可以处理多个key，多个实例分布式并行处理。

3. 有状态分布式流式处理

每个key对应一个state(Keyed state), 或者每个Operator实例对应一个state(Operator state).

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【Flink】基本概念

一. Apache Flink 的定义、架构及原理Apache Flink 是一个分布式大数据处理引擎，可对有限数据流和无限数据流进行有状态或无状态的计算，能够部署在各种集群环境，对各种规模大小的数据进行快速计算。1. Flink 应用相关概念：Streams（流），分为有限数据流与无限数据流，unbounded stream 是有始无终的数据流，即无限数据流；而 bounded str...
复制链接

扫一扫

专栏目录

Eason-Sun CSDN认证博客专家 CSDN认证企业博客

码龄8年

30: 原创

55万+: 周排名

229万+: 总排名

4万+: 访问

: 等级

446: 积分

10: 粉丝

30: 获赞

16: 评论

73: 收藏

私信

关注

热门文章

分类专栏

Linux 3篇
算法 2篇
大数据 4篇
计算机基础 3篇
后台 2篇
数据库 1篇
容器 1篇
序列化 1篇
Golang 2篇
python 10篇
笔记 9篇

最新评论

Makefile
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)使用标准目录；(3)增加条理清晰的目录。
Centos防火墙开放端口
mlxxgcs: 防火墙知识不错，在神州bangbang上，还是能用到不少呢
Centos防火墙开放端口
mlxxgcs: 期待更多知识的分享
算法题：最少出牌次数
半生言: 41行那边编译器报错博主知道啥原因嘛。。或者有什么替代的代码
Docker 笔记
大家一起学编程（python）: 确认过眼神，这个文章有水平

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。