面向工作和面试进行知识点学习
1.spark shuffle 原理
2.spark 内存管理模型
3.spark 算子 及 一些算子对比 reparation colase groupbykey reducebykey cache persist
4.spark 数据倾斜及如何解决
5.spark 分区 range hash
6.stage划分
7.spark streaming 如何优雅的关闭
8.spark streaming parallism 和partiton
9.spark streaming背压处理
10.spark streaming 端到端一致性 如何管理offset
11.spark count distinct 原理