Flink
文章平均质量分 85
栖溪阁晓生
在线笔记本!!!
展开
-
Apache Flink学习_容错机制
本文主要介绍Flink的检查点及故障恢复机制。了解Flink是如何提供精确一次的状态一致性保障的。另外还会介绍Flink独有的保存点机制。 一、checkpoint checkpoint机制是Flink可靠性的基石,可以保证Flink集群在某个算子因为某些原因出现故障时,能够将整个应用流图的状态恢复到故障之前的某一状态,保证应用流图状态的一致性。 用一个简单的实现算法来解释应用建立一致性检查点的过程,概括的将这个简单算法的步骤就是: 暂停应用 --> 等待流入数据被全部处理,将全部任务状持久化存储原创 2021-11-20 21:10:48 · 1186 阅读 · 0 评论 -
Apache Flink学习_状态的一致性
一致性实际上是“正确性级别”的另一种说法,也就是说在成功处理故障并恢复之后得到的结果,与没有发生任何故障时得到的结果相比,前者到底有多正确。例如,要对最近一小时登录的用户计数。在系统经理故障之后,计数结果是多少?如果有偏差,是有漏掉的计数还是重复计数? 在流处理中,一致性可以分为三个级别: at-most-once(最多一次): 这其实是没有正确性保障的委婉说法——故障发生之后,技术结果可能丢失。 at-least-once(至少一次): 这表示计数结果可能大于正确值,但绝对不会小于正确值。也就是说,计数原创 2021-11-20 17:26:41 · 1162 阅读 · 0 评论 -
Apache Flink学习_状态管理
在复杂的流处理场景中都需要记录状态,然后在新流入数据的基础上不断更新状态。 一、什么是状态 流式计算分为无状态计算和有状态计算两种情况。 无状态的计算观察每个独立事件,并根据最后一个事件输出结果。 有状态的计算会基于多个事件输出结果。 二、状态使用场景 去重:对数据流中的重复数据进行去重; 检测:如判断一个温度传感器数据流中的温度是否在持续上升; 聚合:对一个事件窗口的数据进行聚合分析,比如分析一个小时内水位的情况; 更新机器学习模型:在线机器学习场景下,需要根据新流入数据不断更新模型参数; 三、原创 2021-11-20 11:55:32 · 1070 阅读 · 0 评论