00-Flink
universe_ant
这个作者很懒,什么都没留下…
展开
-
Watermark
一、Time 谈及Watermark之前,需要先了解一下Flink中的三种Time,分别是Event Time(事件时间)、摄入时间(Ingestion Time)和Processing Time(处理时间): (图片来自Flink官网) 如上图,可以很清晰的了解这三种时间的概念: 事件时间:事件发生的时间,数据本身一般会携带的时间,可以从每个事件中获取到事件时间戳; 摄入时间:事...原创 2019-05-31 23:52:15 · 988 阅读 · 0 评论 -
State
一、State 想要回答这个问题,先来看看一段描述: 假设我们以Kafka作为数据源,利用Flink做word count计算。考虑下面几个问题: 为了精准地计算最终各个单词的出现次数,当由于某种原因导致故障时怎么确保恢复后已计算过的单词不会再次被计入次数? 单词的计数过程是在已计算得到的中间结果的基础上,将正在处理的单词对应的个数加一,那么中间结果保存在哪里? 针对第一个问题,可以将Ka...原创 2019-06-02 18:19:12 · 145 阅读 · 0 评论 -
脱离JVM?Hadoop生态圈的挣扎与演化
目录 背景 JVM存在的问题 1. Java对象开销 2. 对象存储结构引发的cache miss 3. 大数据的垃圾回收 4. OOM问题 解决方案 定制的序列化工具 Spark的序列化框架 Flink的序列化框架 显式的内存管理 Flink的内存管理 Spark的内存管理 缓存友好的计算 Flink中的数据结构 Spark的数据结构 总结 参考 新世纪以来...转载 2019-06-20 10:52:40 · 290 阅读 · 0 评论 -
Checkpointing
一、Checkpointing 下图主要是描述word count的Job逻辑: barrier由source节点发出; barrier会将流上event切分到不同的checkpoint中; 汇聚到当前节点的多流的barrier要对齐; barrier对齐之后会进行checkpointing,生成snapshot; 完成snapshot之后向下游...原创 2019-06-04 18:42:57 · 367 阅读 · 0 评论