Spark 面试题

总结

问题答案
spark stage 化分宽依赖 ,如reducebykey groupbykey
groupbykey和reducebykey的区别reducebykey提前做一次合并
spark streaming 消费数据不丢https://www.cnblogs.com/evakang/p/11043543.html
spark OOM1.driver 端 collect算子 2.exector 内存不够
spark 数据倾斜问题https://mp.weixin.qq.com/s/lqMu6lfk-Ny1ZHYruEeBdA
Spark Shuffle调优
Spark Shuffle迭代版本
RDD分区,不可变,并行操作
RDD五大特性
cache,persist都是缓存RDD,两个 区别在于persist可以设置缓存级别
rdd,partition,executor,core,task关系rdd对应多个partition,一个partition 对应一个task,一个executor,要以对应多个core,一个core同时只能处理一个任务
spark与hadoop的区别1.hadoop数据要落盘,spark优先放内存 2.
spark streaming与flink比较
spark的lazy体现action算子才会生成任务
spark的调度机制https://mp.weixin.qq.com/s/B44ekh53tTkF4UfFXJ-jBQ
Spark为什么适合迭代处理rdd 可以被cache多次处理
Broadcast的作用executor使用到了driver的变量 ,如果不使用,每个task都会有一份副本,使用了,一个executor一份副本
RDD和Dframe和DataSet的区别演变关系 rdd—>dframe—>dataset dframe有schema ,dframe中间会经过逻辑优化,可以进行谓词下推
Spark容错1.如果有rdd数据丢失,可以通过关系图重算这个数据 2.spark streaming 可以通过checkpoint来保证
spark动态资源调度模型通过参数设置,没有使用的executor可以被回收,需要 的时候再申请
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wending-Y

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值