大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day15】——Spark2

本文链接：https://blog.csdn.net/2301_79058506/article/details/138431240

接下来我准备用30天时间，基于大数据开发岗面试中的高频面试题，以每日5题的形式，带你过一遍常见面试题及恰如其分的解答。

相信只要一路走来，日积月累，我们终会在最高处见。
以古人的话共勉：道阻且长，行则将至；行而不辍，未来可期！

在这里插入图片描述

本栏目大数据开发岗高频面试题主要出自大数据技术专栏的各个小专栏,由于个别笔记上传太早,排版杂乱,后面会进行原文美化、增加。

文章目录

- 前言

停🤚
不要往下滑了，
默默想5min，
看看这5道面试题你都会吗？

面试题 01、Spark使用parquet文件存储格式能带来哪些好处？
面试题02、介绍parition和block有什么关联关系？
面试题 03、Spark应用程序的执行过程是什么？
面试题04、不需要排序的hash shuffle是否一定比需要排序的sort shuffle速度快？
面试题05、Sort-based shuffle的缺陷?

在这里插入图片描述

以下答案仅供参考：

面试题 01、Spark使用parquet文件存储格式能带来哪些好处？

1）如果说HDFS是大数据时代分布式文件系统首选标准，那么parquet则是整个大数据时代文件存储格式实时首选标准。
2）速度更快：从使用spark sql操作普通文件CSV和parquet文件速度对比上看，绝大多数情况会比使用csv等普通文件速度提升10倍左右，在一些普通文件系统无法在spark上成功运行的情况下，使用parquet很多时候可以成功运行。
3）parquet的压缩技术非常稳定出色，在spark sql中对压缩技术的处理可能无法正常的完成工作（例如会导致lost task，lost executor）但是此时如果使用parquet就可以正常的完成。
4）极大的减少磁盘I/o,通常情况下能够减少75%的存储空间，由此可以极大的减少spark sql处理数据的时候的数据输入内容，尤其是在spark1.6x中有个下推过滤器在一些情况下可以极大的减少磁盘的IO和内存的占用，（下推过滤器）。
5）spark 1.6x parquet方式极大的提升了扫描的吞吐量，极大提高了数据的查找速度spark1.6和spark1.5x相比而言，提升了大约1倍的速度，在spark1.6X中，操作parquet时候cpu也进行了极大的优化，有效的降低了cpu消耗。
6）采用parquet可以极大的优化spark的调度和执行。我们测试spark如果用parquet可以有效的减少stage的执行消耗，同时可以优化执行路径。

面试题02、介绍parition和block有什么关联关系？

1）hdfs中的block是分布式存储的最小单元，等分，可设置冗余，这样设计有一部分磁盘空间的浪费，但是整齐的block大小，便于快速找到、读取对应的内容；
2）Spark中的partion是弹性分布式数据集RDD的最小单元，RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中，生成的数据在计算空间内最小单元，同一份数据（RDD）的partion大小不一，数量不定，是根据application里的算子和最初读入的数据分块数量决定；