Spark高频面试题(建议收藏)

       

一、你是怎么理解Spark,它的特点是什么?

        Spark是一个基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。

        它内部的组成模块,包含SparkCore,SparkSQL,SparkStreaming,SparkMLlib,SparkGraghx等...

        它的特点:

        Spark计算速度是MapReduce计算速度的10-100倍

  • 易用

        MR支持1种计算模型,Spsark支持更多的计算模型(算法多)

  • 通用

        Spark 能够进行离线计算、交互式查询(快速查询)、实时计算、机器学习、图计算

  • 兼容性

        Spark支持大数据中的Yarn调度,支持mesos。可以处理hadoop计算的数据。

        

二、Spark有几种部署方式,请分别简要论述

        1) Local:运行在一台机器上,通常是练手或者测试环境。

        2)Standalone:构建一个基于Mster+Slaves的资源调度集群,Spark任务提交给Master运行。是Spark自身的一个调度系统。

        3)Yarn: Spark客户端直接连接Yarn,不需要额外构建Spark集群。有yarn-client和yarn-cluster两种模式,主要区别在于:Driver程序的运行节点。

        4)Mesos:国内大环境比较少用。

        

三、Spark提交作业的参数

        因为我们Spark任务是采用的Shell脚本进行提交,所以一定会涉及到几个重要的参数,而这个也是在面试的时候容易被考察到的“细节”。

executor-cores —— 每个executor使用的内核数,默认为1,官方建议2-5个,我们企业是4个
num-executors —— 启动executors的数量,默认为2
executor-memory —— executor内存大小,默认1G
driver-cores —— driver使用内核数,默认为1
driver-memory —— driver内存大小,默认512M

        

四、简述Spark的作业提交流程

        Spark的任务提交方式实际上有两种,分别是YarnClient模式和YarnCluster模式。大家在回答这个问题的时候,也需要分类去介绍。千万不要被冗长的步骤吓到,一定要学会总结差异,发现规律,通过图形去增强记忆。

  • YarnClient  运行模式介绍

        在YARN Client模式下,Driver在任务提交的本地机器上运行,Driver启动后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster的功能相当于一个ExecutorLaucher,只负责向ResourceManager申请Executor内存。

        ResourceManager接到ApplicationMaster的资源申请后会分配container,然后ApplicationMaster在资源分配指定的NodeManager上启动Executor进程,Executor进程启动后会向Driver反向注册,Executor全部注册完成后Driver开始执行main函数,之后执行到Action算子时,触发一个job,并根据宽依赖开始划分stage,每个stage生成对应的taskSet,之后将task分发到各个Executor上执行。        

  • YarnCluster 模式介绍

         在YARN Cluster模式下,任务提交后会和ResourceManager通讯申请启动ApplicationMaster,随后ResourceManager分配container,在合适的NodeManager上启动ApplicationMaster,此时的ApplicationMaster就是Driver。

        Driver启动后向ResourceManager申请Executor内存,ResourceManager接到ApplicationMaster的资源申请后会分配container,然后在合适的NodeManager上启动Executor进程,Executor进程启动后会向Driver反向注册,Executor全部注册完成后Driver开始执行main函数,之后执行到Action算子时,触发一个job,并根据宽依赖开始划分stage,每个stage生成对应的taskSet,之后将task分发到各个Executor上执行。

        

五、你是如何理解Spark中血统(RDD)的概念?它的作用是什么?

        RDD 可是Spark中最基本的数据抽象,我想就算面试不被问到,那自己是不是也应该非常清楚呢!

        下面提供菌哥的回答,供大家参考:

  • 概念

        RDD是弹性分布式数据集,是Spark中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算 的集合。

  • 作用

        提供了一个抽象的数据模型,将具体的应用逻辑表达为一系列转换操作(函数)。另外不同RDD之间的转换操作之间还可以形成依赖关系,进而实现管道化,从而避免了中间结果的存储,大大降低了数据复制、磁盘IO和序列化开销,并且还提供了更多的API(map/reduec/filter/groupBy...)

        如果还想锦上添花,可以添上这一句:

RDD在Lineage依赖方面分为两种Narrow Dependencies与Wide Dependencies,用来解决数据容错时的高效性以及划分任务时候起到重要作用

六、简述Spark的宽窄依赖,以及Spark如何划分stage,每个stage又根据什么决定task个数?

        Spark的宽窄依赖问题是SparkCore部分的重点考察内容,多数出现在笔试中,大家需要注意。

        窄依赖:父RDD的一个分区只会被子RDD的一个分区依赖

        宽依赖:父RDD的一个分区会被子RDD的多个分区依赖(涉及到shuffle)

        那Stage是如何划分的呢?

        根据RDD之间的依赖关系的不同将Job划分成不同的Stage,遇到一个宽依赖则划分一个Stage。

        每个stage又根据什么决定task个数?

        Stage是一个TaskSet,将Stage根据分区数划分成一个个的Task。

        这里为了方便大家理解,贴上一张过程图

七、列举Spark常用的transformation和action算子,有哪些算子会导致Shuffle?

        我们在Spark开发过程中,避不开与各种算子打交道,其中Spark 算子分为transformation 和 action 算子,下面列出一些常用的算子,具体的功能还需要小伙伴们自行去了解。

transformation

  • map

  • mapRartition

  • flatMap

  • filter

  •  ...

action

  • reduce

  • collect

  • first

  • take

  • ...

        如果面试官问你,那小伙几,有哪些会引起Shuffle过程的Spark算子呢?

        你只管自信的回答:

  • reduceByKey

  • groupByKey

  • ...ByKey

八、reduceByKey与groupByKey的区别,哪一种更具优势?

        既然你上面都提到 reduceByKey 和groupByKey  ,那哪一种更具优势,你能简单分析一下吗?

        能问这样的问题,已经暗示面试官的水平不低了,那么我们该如何回答呢:

        reduceByKey:按照key进行聚合,在shuffle之前有combine(预聚合)操作,返回结果是RDD[k,v]。

        groupByKey:按照key进行分组,直接进行shuffle

        所以,在实际开发过程中,reduceByKey比groupByKey,更建议使用。但是需要注意是否会影响业务逻辑。

        

九、Repartition和Coalesce 的关系与区别,能简单说说吗?

        这道题就已经开始掺和有“源码”的味道了,为什么呢?

        1)关系:

        两者都是用来改变RDD的partition数量的,repartition底层调用的就是coalesce方法:coalesce(numPartitions, shuffle = true)

        2)区别:

        repartition一定会发生shuffle,coalesce 根据传入的参数来判断是否发生shuffle。

        一般情况下增大rdd的partition数量使用repartition,减少partition数量时使用coalesce。

        

十、简述下Spark中的缓存(cache和persist)与checkpoint机制,并指出两者的区别和联系

        关于Spark缓存和检查点的区别,大致可以从这3个角度去回答:

  • 位置

        Persist 和 Cache将数据保存在内存,Checkpoint将数据保存在HDFS

  • 生命周期

        Persist 和 Cache  程序结束后会被清除或手动调用unpersist方法,Checkpoint永久存储不会被删除。

  • RDD依赖关系

        Persist 和 Cache,不会丢掉RDD间的依赖链/依赖关系,CheckPoint会斩断依赖链。

        

十一、简述Spark中共享变量(广播变量和累加器)的基本原理与用途

        关于Spark中的广播变量和累加器的基本原理和用途,答案较为固定,大家无需刻意去记忆。

        累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。

        广播变量是在每个机器上缓存一份,不可变,只读的,相同的变量,该节点每个任务都能访问,起到节省资源和优化的作用。它通常用来高效分发较大的对象。

十二、当Spark涉及到数据库的操作时,如何减少Spark运行中的数据库连接数?

        嗯,有点“调优”的味道,感觉真正的“风暴”即将到来,这道题还是很好回答的,我们只需要减少连接数据库的次数即可。

        使用foreachPartition代替foreach,在foreachPartition内获取数据库的连接。        

十三、能介绍下你所知道和使用过的Spark调优吗?

        恐怖如斯,该来的还是会来的,庆幸自己看了菌哥的面试杀招,丝毫不慌:        

资源参数调优

  • num-executors:设置Spark作业总共要用多少个Executor进程来执行

  • executor-memory:设置每个Executor进程的内存

  • executor-cores:设置每个Executor进程的CPU core数量

  • driver-memory:设置Driver进程的内存

  • spark.default.parallelism:设置每个stage的默认task数量

  • ...

开发调优

  1. 避免创建重复的RDD

  2. 尽可能复用同一个RDD

  3. 对多次使用的RDD进行持久化

  4. 尽量避免使用shuffle类算子

  5. 使用map-side预聚合的shuffle操作

  6. 使用高性能的算子

①使用reduceByKey/aggregateByKey替代groupByKey

②使用mapPartitions替代普通map 

③使用foreachPartitions替代foreach 

④使用filter之后进行coalesce操作

⑤使用repartitionAndSortWithinPartitions替代repartition与sort类操作

  1. 广播大变量

在算子函数中使用到外部变量时,默认情况下,Spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100M,甚至1G),那么大量的变量副本在网络中传输的性能开销,以及在各个节点的Executor中占用过多内存导致的频繁GC(垃圾回收),都会极大地影响性能。

  1. 使用Kryo优化序列化性能

  2. 优化数据结构

在可能以及合适的情况下,使用占用内存较少的数据结构,但是前提是要保证代码的可维护性。

        如果能够尽可能的把这些要点说出来,我想面试官可能就一个想法:

十四、如何使用Spark实现TopN的获取(描述思路或使用伪代码)?

        能让你使用伪代码来描述这已经非常“苛刻”了,但是不慌,这里提供3种思路供大家参考:

  • 方法1:

        (1)按照key对数据进行聚合(groupByKey)

        (2)将value转换为数组,利用scala的sortBy或者sortWith进行排序(mapValues)

        注意:当数据量太大时,会导致OOM

  • 方法2:

        (1)取出所有的key

        (2)对key进行迭代,每次取出一个key利用spark的排序算子进行排序

  • 方法3:

        (1)自定义分区器,按照key进行分区,使不同的key进到不同的分区

        (2)对每个分区运用spark的排序算子进行排序

--end--

扫描下方二维码

添加好友,备注【交流

可私聊交流,也可进资源丰富学习群

  • 81
    点赞
  • 846
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
当谈到 Flink 的高频面试题时,以下是一些常见的问题: 1. 什么是 Flink?Flink 是一个开源的流处理和批处理框架,具有低延迟、高吞吐量和Exactly-Once语义。 2. Flink 和其他流处理框架(如Spark Streaming)有什么区别?Flink 是真正的流处理框架,支持事件时间、状态和容错。而其他框架通常是微批处理框架,处理延迟较高。 3. Flink 的核心组件是什么?核心组件包括DataStream API、DataSet API、Table API 和 SQL。DataStream API 用于处理无界数据流,DataSet API 用于处理有界数据集,Table API 和 SQL 用于将关系型查询应用到流和批处理数据上。 4. Flink 的窗口是什么?窗口是对无界数据流的有限大小的切片。Flink 提供了时间窗口、计数窗口和会话窗口等类型的窗口。 5. Flink 如何保证 Exactly-Once 语义?Flink 使用检查点(checkpoint)机制来实现端到端的 Exactly-Once 语义。这个机制通过定期保存应用程序的状态,并在发生故障时恢复状态,从而保证数据的一致性。 6. Flink 的容错机制是什么?Flink 使用基于检查点的容错机制,通过保存应用程序的状态并周期性地生成检查点来实现容错。当发生故障时,Flink 可以使用最近的检查点恢复应用程序的状态。 7. Flink 支持哪些数据源和数据接收器?Flink 支持多种数据源和数据接收器,包括本地文件系统、Kafka、Hadoop、Amazon S3、Elasticsearch 等。 8. Flink 如何处理状态?Flink 通过状态后端将应用程序的状态保存在内存、文件系统或远程数据库中。状态可以是键控状态(Keyed State)或操作符状态(Operator State),用于跟踪和更新流处理的中间结果。 9. Flink 的时间语义是什么?Flink 支持事件时间、处理时间和摄取时间三种时间语义。事件时间是从数据中提取的时间戳,处理时间是处理数据的机器的本地时间,摄取时间是数据进入 Flink 的时间戳。 10. Flink 如何处理延迟数据?Flink 使用水位线(Watermark)来处理延迟数据。水位线是一种特殊的数据元素,用于告知 Flink 系统事件时间进展的进度,并触发窗口计算和数据输出。 这些问题涵盖了 Flink 的基本概念和核心组件,希望对你有所帮助!如果你有其他问题,可以继续提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值