Spark

Spark

1、spark部署方式?

2、spark架构及作业提交流程?spark如何提交任务?提交作业参数?

3、spark血统(RDD)? Spark 宽窄依赖及划分stage和task?

4、spark transformation 算子及功能?action算子及功能?Shuffle中的Spark算子及功能?

5、spark 中两种核心的shuffle 的工作流程?spark shuffle默认并行度?

6、spark中常用算子reduce Bykey 和 groupBykey 的区别?优劣势?

7、Repartition 和Coalesce 关系与区别?

8、Spark缓存机制,区别及联系?cache缓存级别?释放缓存和缓存?

9、Spark中共享变量(广播变量及累加器)的基本原理及用途?

10、spark实现TOPN获取(思路及伪代码)

11、调优之前和调优之后性能详细对比?

12、SparkSQL 中RDD、DateFrame、DateSet 三者区别和联系?

13、kryo序列化?临时表及全局临时表?BroadCast join广播join?

14、spark SQL中join 和left join 区别?

15、注册UDF函数?

16、控制spark reduce 缓存 调优shuffle

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值