大数据面试
专注大数据
专注大数据领域
展开
-
大数据面试-Spark专题-002
目录:01、Spark常用算子reduceByKey与groupByKey的区别,哪一种更具优势?02、如何使用Spark实现TopN的获取(描述思路或使用伪代码)03、分别简述Spark中的缓存机制(cache和persist)与checkpoint机制,并指出两者的区别与联系04、当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?05、简述Spark中共享变量(广播变量和累加器)的基本原理与用途。01、Spark常用算子reduceByKey与groupByKey的区别,哪一种原创 2020-07-10 18:39:58 · 529 阅读 · 0 评论 -
大数据面试-Spark专题-001
这里写目录标题1、Spark有几种部署方式?请分别简要论述2、Spark提交作业参数,及参数常规设置?3、简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数?4、Spark任务使用什么进行提交,JavaEE界面还是脚本?5、简述Spark的架构与作业提交流程(画图并注明务个部分作用)1、Spark有几种部署方式?请分别简要论述1)Local:运行在一台机器上,通常是练手或者测试环境。2)Standalone:构建一个基于Mster+Slaves的资源调原创 2020-07-07 08:40:36 · 389 阅读 · 0 评论