universe_ant的博客

努力努力再努力

最近在读的书(持续更新)

工作之余,及时充电! 书名 开始时间 结束时间 Spark快速大数据分析 20190605 统计学习方法 20190628 最优化导论 20190628 ...

2019-06-13 18:00:45

阅读数 59

评论数 0

脱离JVM?Hadoop生态圈的挣扎与演化

目录 背景 JVM存在的问题 1. Java对象开销 2. 对象存储结构引发的cache miss 3. 大数据的垃圾回收 4. OOM问题 解决方案 定制的序列化工具 Spark的序列化框架 Flink的序列化框架 显式的内存管理 Flink的内存管理 Spark的内存...

2019-06-20 10:52:40

阅读数 27

评论数 0

Checkpointing

一、Checkpointing 下图主要是描述word count的Job逻辑: barrier由source节点发出; barrier会将流上event切分到不同的checkpoint中; 汇聚到当前节点的多流的barrier要对齐; barrier对齐...

2019-06-04 18:42:57

阅读数 32

评论数 0

State

一、State 想要回答这个问题,先来看看一段描述: 假设我们以Kafka作为数据源,利用Flink做word count计算。考虑下面几个问题: 为了精准地计算最终各个单词的出现次数,当由于某种原因导致故障时怎么确保恢复后已计算过的单词不会再次被计入次数? 单词的计数过程是在已计算得到的...

2019-06-02 18:19:12

阅读数 11

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭