大数据面试题——Spark面试题（四）

最新推荐文章于 2024-07-18 22:43:28 发布

蓦然_

最新推荐文章于 2024-07-18 22:43:28 发布

阅读量917

点赞数

分类专栏：大数据面试题文章标签： 1024程序员节 Spark面试题总结大数据面试题总结大数据

本文链接：https://blog.csdn.net/qq_41544550/article/details/109254534

版权

大数据面试题专栏收录该内容

68 篇文章 37 订阅

订阅专栏

1、Spark中的HashShufle的有哪些不足？

1）shuffle产生海量的小文件在磁盘上，此时会产生大量耗时的、低效的IO操作；

2）容易导致内存不够用，由于内存需要保存海量的文件操作句柄和临时缓存信息，如果数据处理规模比较大的话，容易出现OOM；

3）容易出现数据倾斜，导致OOM。

2、 conslidate是如何优化Hash shuffle时在map端产生的小文件？

1）conslidate为了解决Hash Shuffle同时打开过多文件导致Writer handler内存使用过大以及产生过多文件导致大量的随机读写带来的低效磁盘IO；

2）conslidate根据CPU的个数来决定每个task shuffle map端产生多少个文件，假设原来有10个task，100个reduce，每个CPU有10个CPU，那么使用hash shuffle会产生10*100=1000个文件，conslidate产生10*10=100个文件

注意：conslidate部分减少了文件和文件句柄，并行读很高的情况下（task很多时）还是会很多文件。

3、spark.default.parallelism这个参数有什么意义，实际生产中如何设置？

1）参数用于设置每个stage的默认task数量。这个参数极为重要，如果不设置可能会直接影响你的Spark作业性能；

2）很多人都不会设置这个参数，会使得集群非常低效，你的cpu，内存再多，如果task始终为1，那也是浪费，spark官网建议task个数为CPU的核数*executor的个数的2~3倍。

4、spark.shuffle.memoryFraction参数的含义，以及优化经验？

1）spark.shuffle.memoryFraction是shuffle调优中重要参数，shuffle从上一个task拉去数据过来，要在Executor进行聚合操作，聚合操作时使用Executor内存的比例由该参数决定，默认是20%如果聚合时数据超过了该大小，那么就会spill到磁盘，极大降低性能；

2）如果Spark作业中的RDD持久化操作较少，shuffle操作较多时，建议降低持久化操作的内存占比，提高shuffle操作的内存占比比例，避免shuffle过程中数据过多时内存不够用，必须溢写到磁盘上，降低了性能。此外，如果发现作业由于频繁的gc导致运行缓慢，意味着task执行用户代码的内存不够用，那么同样建议调低这个参数的值。

5、Spark中standalone模式特点，有哪些优点和缺点？

1）特点：

（1）standalone是master/slave架构，集群由Master与Worker节点组成，程序通过与Master节点交互申请资源，Worker节点启动Executor运行；

（2）standalone调度模式使用FIFO调度方式；

（3）无依赖任何其他资源管理系统，Master负责管理集群资源

2）优点：

（1）部署简单；

（2）不依赖其他资源管理系统。

3）缺点：

（1）默认每个应用程序会独占所有可用节点的资源，当然可以通过spark.cores.max来决定一个应用可以申请的CPU cores个数；

（2）可能有单点故障，需要自己配置master HA

6、 FIFO调度模式的基本原理、优点和缺点？

基本原理：按照先后顺序决定资源的使用，资源优先满足最先来的job。第一个job优先获取所有可用的资源，接下来第二个job再获取剩余资源。以此类推，如果第一个job没有占用所有的资源，那么第二个job还可以继续获取剩余资源，这样多个job可以并行运行，如果第一个job很大，占用所有资源，则第二job就需要等待，等到第一个job释放所有资源。

优点和缺点：

1）适合长作业，不适合短作业；

2）适合CPU繁忙型作业（计算时间长，相当于长作业），不利于IO繁忙型作业（计算时间短，相当于短作业）。

7、FAIR调度模式的优点和缺点？

所有的任务拥有大致相当的优先级来共享集群资源，spark多以轮训的方式为任务分配资源，不管长任务还是端任务都可以获得资源，并且获得不错的响应时间，对于短任务，不会像FIFO那样等待较长时间了，通过参数spark.scheduler.mode 为FAIR指定。

8、 CAPCACITY调度模式的优点和缺点？

1）原理：

计算能力调度器支持多个队列，每个队列可配置一定的资源量，每个队列采用 FIFO 调度策略，为了防止同一个用户的作业独占队列中的资源，该调度器会对同一用户提交的作业所占资源量进行限定。调度时，首先按以下策略选择一个合适队列：计算每个队列中正在运行的任务数与其应该分得的计算资源之间的比值(即比较空闲的队列)，选择一个该比值最小的队列；然后按以下策略选择该队列中一个作业：按照作业优先级和提交时间顺序选择，同时考虑用户资源量限制和内存限制

2）优点：

（1）计算能力保证。支持多个队列，某个作业可被提交到某一个队列中。每个队列会配置一定比例的计算资源，且所有提交到队列中的作业共享该队列中的资源；

（2）灵活性。空闲资源会被分配给那些未达到资源使用上限的队列，当某个未达到资源的队列需要资源时，一旦出现空闲资源资源，便会分配给他们；

（3）支持优先级。队列支持作业优先级调度（默认是FIFO）；

（4）多重租赁。综合考虑多种约束防止单个作业、用户或者队列独占队列或者集群中的资源；

（5）基于资源的调度。支持资源密集型作业，允许作业使用的资源量高于默认值，进而可容纳不同资源需求的作业。不过，当前仅支持内存资源的调度。