Flink
文章平均质量分 86
西土城计划
这个作者很懒,什么都没留下…
展开
-
Flink流式计算里的时间和watermark机制
一 流计算对“批计算”的优势: “流计算”是相对于“批计算”来的,MapReduce,Spark底层的计算方式是目前主流的“批计算”实现方式,很多公司在使用这种方式做大数据处理。但是越来越多的公司目前开始关注“流计算”,主要有以下一些原因: 1 对处理时间的要求。随着技术的进步,用户对“延迟”的忍受能力越来越弱,能更及时发现问题、解决问题,能提升用户体验。 2 在大数据分析领域,数据...原创 2018-12-24 16:45:34 · 742 阅读 · 0 评论 -
Flink的可靠性保证 - 状态存储
一 为什么需要State存储 与批计算相比,State是流计算特有的,批计算的failover机制,是失败后重新计算;流计算在大多数场景下是增量计算,数据逐条处理,每次计算是在上一次计算结果之上进行处理的,这就要求对上一次的计算结果进行存储,当因为机器,网络,脏数据等原因导致程序错误的时候,可以重启Job进行state恢复。Flink就是基于state存储,通过CheckPoint机制来保证数据...原创 2018-12-25 10:58:28 · 1102 阅读 · 0 评论 -
Flink的可靠性保证 – CheckPoint机制
Flink支持Exactly-Once级别的准确行,这是一个很高的要求,一般的高吞吐量系统只支持At-least-Once级别的。Lightweight Asynchronous Snapshots for Distributed Dataflows 这篇论文是Checkpointing 机制的理论基础,这个机制的思想来源于K.MANI CHANDY和LESLIE LAMPORT 发表的一篇分布式...原创 2018-12-25 16:01:33 · 822 阅读 · 0 评论 -
Flink的window机制
Window在流式计算中很重要,因为”流”是一个无终点的持续输入,所以通过window机制来分块,进行聚合等各种处理 Keyed vs Non-Keyed Windows Non-key window是在整个流上进行分块,没法并行处理 Window Assigners 分为4种窗口类型,分别是: Tumbling Windows;Sliding Windows;Session Wind...原创 2018-12-26 09:43:27 · 262 阅读 · 0 评论