大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day26】——Spark13_涌云信息科技有限公司大数据面试题

最新推荐文章于 2024-08-25 23:50:29 发布

2401_84182793

最新推荐文章于 2024-08-25 23:50:29 发布

阅读量539

点赞数 27

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84182793/article/details/138721210

版权

程序员专栏收录该内容

124 篇文章 0 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

文章目录

- 前言

停🤚
不要往下滑了，
默默想5min，
看看这5道面试题你都会吗？

面试题 01、RDD的数据结构是怎么样的？
面试题02、简述Spark on yarn的作业提交流程
面试题 03、Spark的有几种部署模式，每种模式特点？
面试题04、Spark为什么比mapreduce快？
面试题05、简单说一下hadoop和spark的shuffle相同和差异？

在这里插入图片描述

以下答案仅供参考：

面试题 01、 RDD的数据结构是怎么样的？

一个RDD对象，包含如下5个核心属性。

1）一个分区列表，每个分区里是RDD的部分数据（或称数据块）。

2）一个依赖列表，存储依赖的其他RDD。

3）一个名为compute的计算函数，用于计算RDD各分区的值。

4）分区器（可选），用于键/值类型的RDD，比如某个RDD是按散列来分区。

5）计算各分区时优先的位置列表（可选），比如从HDFS上的文件生成RDD时，RDD分区的位置优先选择数据所在的节点，这样可以避免数据移动带来的开销。

面试题02、简述Spark on yarn的作业提交流程

YARN Client模式

在YARN Client模式下，Driver在任务提交的本地机器上运行，Driver启动后会和ResourceManager通讯申请启动ApplicationMaster，随后ResourceManager分配container，在合适的NodeManager上启动ApplicationMaster，此时的ApplicationMaster的功能相当于一个ExecutorLaucher，只负责向ResourceManager申请Executor内存。

ResourceManager接到ApplicationMaster的资源申请后会分配container，然后ApplicationMaster在资源分配指定的NodeManager上启动Executor进程，Executor进程启动后会向Driver反向注册，Executor全部注册完成后Driver开始执行main函数，之后执行到Action算子时，触发一个job，并根据宽依赖开始划分stage，每个stage生成对应的taskSet，之后将task分发到各个Executor上执行。

YARN Cluster模式

在YARN Cluster模式下，任务提交后会和ResourceManager通讯申请启动ApplicationMaster，随后ResourceManager分配container，在合适的NodeManager上启动ApplicationMaster，此时的ApplicationMaster就是Driver。

Driver启动后向ResourceManager申请Executor内存，ResourceManager接到ApplicationMaster的资源申请后会分配container，然后在合适的NodeManager上启动Executor进程，Executor进程启动后会向Driver反向注册，Executor全部注册完成后Driver开始执行main函数，之后执行到Action算子时，触发一个job，并根据宽依赖开始划分stage，每个stage生成对应的taskSet，之后将task分发到各个Executor上执行。

面试题03、Spark的有几种部署模式，每种模式特点？

1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，
本地模式分三类 local：只启动一个executor local[k]:启动k个executor local[*]：启动跟cpu数目相同的 executor

2）standalone模式分布式部署集群，自带完整的服务，资源管理和任务监控是Spark自己监控，这个模式也是其他模式的基础。

3）Spark on yarn模式分布式部署集群，资源和任务监控交给yarn管理，但是目前仅支持粗粒度资源分配方式，包含cluster和client运行模式，cluster适合生产，driver运行在集群子节点，具有容错功能，client适合调试，dirver运行在客户端。

4）Spark On Mesos模式。官方推荐这种模式（当然，原因之一是血缘关系）。
正是由于Spark开发之初就考虑到支持Mesos，因此，目前而言，Spark运行在Mesos上会比运行在YARN上更加灵活，更加自然。

用户可选择两种调度模式之一运行自己的应用程序：

（1）粗粒度模式（Coarse-grained Mode）：每个应用程序的运行环境由一个Dirver和若干个Executor组成，其中，每个Executor占用若干资源，内部可运行多个Task（对应多少个“slot”）。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，最后程序运行结束后，回收这些资源。

（2）细粒度模式（Fine-grained Mode）：鉴于粗粒度模式会造成大量资源浪费，Spark On Mesos还提供了另外一种调度模式：细粒度模式，这种模式类似于现在的云计算，思想是按需分配。

面试题04、Spark为什么比mapreduce快？

Spark vs MapReduce ≠ 内存 vs 磁盘

其实Spark和MapReduce的计算都发生在内存中，区别在于：

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

需要这份系统化资料的朋友，可以戳这里获取

2401_84182793

关注

27
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day26】——Spark13_涌云信息科技有限公司大数据面试题

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。
复制链接

扫一扫