面试题
飘来荡去Jersey
这个作者很懒,什么都没留下…
展开
-
spark面试题汇总(二)
spark有哪两类算子,有哪些特点? spark开发过程中应该尽量避免哪些算子? spark如何从kafka中获取数据? rdd有哪几种创建方式? spark并行度怎么设置比较合适? spark如何处理不能被序列化的对象? collect功能是什么?其底层是怎么实现的? 为什么spark 程序没获得足够资源就开始执行,这会导致什么问题? map和flatmap的区别 driver的功能是什么 spark技术栈都有哪些组件?各自的特点都有哪些? spark中 worker的主要工作是什么? MR和spark都原创 2021-08-18 21:56:18 · 75 阅读 · 0 评论 -
spark面试题汇总(一)
hadoop和spark的shuffle异同点 从high-level角度来看,两者并无太大区别。 都是在map阶段通过partition将数据送到reduce进行计算 从low-level角度来看,hadoop是基于sort-based,即在combine/reduce之前会进行 必须进行数据排序操作,这样做的好处是能处理大规模数据,因为输入的数据可以通过外排得到, 而spark则是hash-based,即通过hashmap对 shuffle来的数据进行聚合,而不会主动进行排序,如需排序则需要手动配置参原创 2021-08-15 22:09:25 · 107 阅读 · 0 评论