spark面试题汇总(二)
spark有哪两类算子,有哪些特点?spark开发过程中应该尽量避免哪些算子?spark如何从kafka中获取数据?rdd有哪几种创建方式?spark并行度怎么设置比较合适?spark如何处理不能被序列化的对象?collect功能是什么?其底层是怎么实现的?为什么spark 程序没获得足够资源就开始执行,这会导致什么问题?map和flatmap的区别driver的功能是什么spark技术栈都有哪些组件?各自的特点都有哪些?spark中 worker的主要工作是什么?MR和spark都
复制链接