- 博客(4)
- 资源 (6)
- 收藏
- 关注
原创 Flink的window机制
Window在流式计算中很重要,因为”流”是一个无终点的持续输入,所以通过window机制来分块,进行聚合等各种处理Keyed vs Non-Keyed WindowsNon-key window是在整个流上进行分块,没法并行处理Window Assigners分为4种窗口类型,分别是:Tumbling Windows;Sliding Windows;Session Wind...
2018-12-26 09:43:27 262
原创 Flink的可靠性保证 – CheckPoint机制
Flink支持Exactly-Once级别的准确行,这是一个很高的要求,一般的高吞吐量系统只支持At-least-Once级别的。Lightweight Asynchronous Snapshots for Distributed Dataflows 这篇论文是Checkpointing 机制的理论基础,这个机制的思想来源于K.MANI CHANDY和LESLIE LAMPORT 发表的一篇分布式...
2018-12-25 16:01:33 822
原创 Flink的可靠性保证 - 状态存储
一 为什么需要State存储与批计算相比,State是流计算特有的,批计算的failover机制,是失败后重新计算;流计算在大多数场景下是增量计算,数据逐条处理,每次计算是在上一次计算结果之上进行处理的,这就要求对上一次的计算结果进行存储,当因为机器,网络,脏数据等原因导致程序错误的时候,可以重启Job进行state恢复。Flink就是基于state存储,通过CheckPoint机制来保证数据...
2018-12-25 10:58:28 1102
原创 Flink流式计算里的时间和watermark机制
一 流计算对“批计算”的优势: “流计算”是相对于“批计算”来的,MapReduce,Spark底层的计算方式是目前主流的“批计算”实现方式,很多公司在使用这种方式做大数据处理。但是越来越多的公司目前开始关注“流计算”,主要有以下一些原因:1 对处理时间的要求。随着技术的进步,用户对“延迟”的忍受能力越来越弱,能更及时发现问题、解决问题,能提升用户体验。2 在大数据分析领域,数据...
2018-12-24 16:45:34 740
编程珠玑 programing pearls
2010-04-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人