Spark
1、spark部署方式?
2、spark架构及作业提交流程?spark如何提交任务?提交作业参数?
3、spark血统(RDD)? Spark 宽窄依赖及划分stage和task?
4、spark transformation 算子及功能?action算子及功能?Shuffle中的Spark算子及功能?
5、spark 中两种核心的shuffle 的工作流程?spark shuffle默认并行度?
6、spark中常用算子reduce Bykey 和 groupBykey 的区别?优劣势?
7、Repartition 和Coalesce 关系与区别?
8、Spark缓存机制,区别及联系?cache缓存级别?释放缓存和缓存?
9、Spark中共享变量(广播变量及累加器)的基本原理及用途?
10、spark实现TOPN获取(思路及伪代码)
11、调优之前和调优之后性能详细对比?
12、SparkSQL 中RDD、DateFrame、DateSet 三者区别和联系?
13、kryo序列化?临时表及全局临时表?BroadCast join广播join?
14、spark SQL中join 和left join 区别?
15、注册UDF函数?
16、控制spark reduce 缓存 调优shuffle