总结
问题 | 答案 |
---|---|
spark stage 化分 | 宽依赖 ,如reducebykey groupbykey |
groupbykey和reducebykey的区别 | reducebykey提前做一次合并 |
spark streaming 消费数据不丢 | https://www.cnblogs.com/evakang/p/11043543.html |
spark OOM | 1.driver 端 collect算子 2.exector 内存不够 |
spark 数据倾斜问题 | https://mp.weixin.qq.com/s/lqMu6lfk-Ny1ZHYruEeBdA |
Spark Shuffle调优 | 递 |
Spark Shuffle | 迭代版本 |
RDD | 分区,不可变,并行操作 |
RDD | 五大特性 |
cache,persist | 都是缓存RDD,两个 区别在于persist可以设置缓存级别 |
rdd,partition,executor,core,task关系 | rdd对应多个partition,一个partition 对应一个task,一个executor,要以对应多个core,一个core同时只能处理一个任务 |
spark与hadoop的区别 | 1.hadoop数据要落盘,spark优先放内存 2. |
spark streaming与flink比较 | 略 |
spark的lazy体现 | action算子才会生成任务 |
spark的调度机制 | https://mp.weixin.qq.com/s/B44ekh53tTkF4UfFXJ-jBQ |
Spark为什么适合迭代处理 | rdd 可以被cache多次处理 |
Broadcast的作用 | executor使用到了driver的变量 ,如果不使用,每个task都会有一份副本,使用了,一个executor一份副本 |
RDD和Dframe和DataSet的区别 | 演变关系 rdd—>dframe—>dataset dframe有schema ,dframe中间会经过逻辑优化,可以进行谓词下推 |
Spark容错 | 1.如果有rdd数据丢失,可以通过关系图重算这个数据 2.spark streaming 可以通过checkpoint来保证 |
spark动态资源调度模型 | 通过参数设置,没有使用的executor可以被回收,需要 的时候再申请 |