Spark的10个常见面试题

最新推荐文章于 2024-09-27 14:39:54 发布

Java学研大本营

最新推荐文章于 2024-09-27 14:39:54 发布

阅读量1.4k

点赞数

文章标签： spark 大数据 java

本文链接：https://blog.csdn.net/u013643074/article/details/131071352

版权

关于 Apache Spark 的重要面试问题

微信搜索关注《Java学研大本营》，加入读者群，分享更多精彩

Apache Spark 是一个用于大规模数据处理的开源统一分析引擎。Spark 的内存数据处理能力使其比 Hadoop 快 100 倍。它具有在如此短的时间内处理大量数据的能力。Spark 最重要的特性是内存数据处理。

Spark 是面试官在大数据面试中最喜欢的话题之一，因此在这篇博客中，我们将回顾有关 Apache Spark 的最重要和最常见的面试问题。

1.Spark是什么？

Spark 是一个通用的内存计算引擎。您可以将它与任何存储系统连接，如本地存储系统、HDFS、Amazon S3 等。它还让您可以自由使用您选择的资源管理器，无论是 Yarn、Mesos、Kubernetes 还是独立的。它旨在管理批处理应用程序工作负载、迭代算法、交互式查询和流式传输。Spark 支持高级 API，例如Java、Scala、Python和R。它是用 Scala 语言构建的。

2. Apache Spark 中的 RDD 是什么？

RDD 代表弹性分布式数据集。它是任何 Spark 应用程序最重要的构建块。它是不可变的。RDD 属性是：-

弹性：- 它具有容错特性，可以快速恢复丢失的数据。
分布式：- 数据分布在多个节点上以加快处理速度。
数据集：- 我们执行操作的数据点的集合。RDD 通过沿袭图提供容错能力。沿袭图跟踪调用动作后要执行的转换。沿袭图有助于重新计算由于节点故障而丢失或损坏的任何 RDD。RDD 用于低级转换和操作。

3. SparkContext 与 SparkContext 之间的区别是什么？火花会议？

在 Spark 1.x 版本中，我们必须为每个 API 创建不同的上下文。例如：-

Spark上下文
SQL上下文
Hive上下文而在 spark 2.x 版本中，引入了一个名为 SparkSession 的新入口点，单独覆盖了所有功能。无需为入口点创建不同的上下文。

SparkContext是访问 spark 功能的主要入口点。它表示 spark 集群的连接，这对于在集群上构建 RDD、累加器和广播变量很有用。我们可以在 spark-shell 中访问 SparkContext 的默认对象，它存在于变量名“sc”中。

SparkSession：-在 spark 2.0 版本之前，我们需要不同的上下文来访问 spark 中的不同功能。而在 spark 2.0 中，我们有一个名为 SparkSession 的统一入口点。它包含 SQLContext、HiveContext 和 StreamingContext。无需创建单独的。在这些上下文中可访问的 API 同样在SparkSession中可用，并且 SparkSession 包含用于实际计算的SparkContext。

4.什么是广播变量？

Spark 中的广播变量是一种在执行程序之间共享只读数据的机制。如果没有广播变量，我们必须在执行任何类型的转换和操作时将数据发送给每个执行器，这可能会导致网络开销。而在广播变量的情况下，它们会一次性发送给所有执行程序并缓存在那里以供将来参考。

广播变量用例

假设我们正在进行转换，需要查找一个更大的邮政编码/密码表。在需要的时候把数据发给每个executor是不可行的，我们也不可能每次都去数据库查询。因此，在这种情况下，我们可以将此查找表转换为广播变量，Spark 会将其缓存在每个执行程序中。

5.解释Pair RDD？

Spark Paired RDD 是键值对的集合。键值对（KVP）中有两个数据项。键是标识符，值是键值对应的数据。在键值对的 RDD 上可以进行一些特殊操作，例如分布式“洗牌”操作、分组或按键聚合元素。

val spark = SparkSession.builder()

.appName("PairedRDDCreation")

.master("local")

.getOrCreate()

val rdd = spark.sparkContext.parallelize(
List("Germany India USA","USA India Russia","India Brazil Canada China"))
val wordsRdd = rdd.flatMap(_.split(" "))
val pairRDD = wordsRdd.map(f=>(f,1))
pairRDD.foreach(println)

输出：

(Germany,1)
(India,1)
(USA,1)
(USA,1)
(India,1)
(Russia,1)
(India,1)
(Brazil,1)
(Canada,1)
(China,1)

6. RDD persist() 和 cache() 方法有什么区别？

持久性和缓存机制是优化技术。它可用于交互式和迭代计算。迭代意味着在多次计算中重用结果。交互意味着允许信息的双向流动。这些机制帮助我们保存结果，以便接下来的阶段可以使用它们。我们可以将 RDD 保存在内存（首选）或磁盘（（不太首选，因为它的访问速度慢）。

**Persist()**：-我们知道，由于 RDD 的默认行为，每个操作都可以重新计算 RDD。为了避免重新计算，我们可以坚持使用 RDD。现在，无论何时我们调用 RDD 上的操作，都不会发生重新计算。

在 persist() 方法中，计算结果存储在它的分区中。使用 Java 和 Scala 时，持久化方法会将数据存储在 JVM 中。而在 python 中，当我们调用 persist 方法时，就会发生数据的序列化。我们可以将数据存储在内存中或磁盘上。两者的组合也是可能的。

持久化 RDD 的存储级别：-

MEMORY_ONLY(DEFAULT LEVEL)
MEMORY_AND_DISK
MEMORY_ONLY_SER
MEMORY_ONLY_DISK_SER
DISC_ONLY

Cache():-与persist方法相同；唯一的区别是缓存将计算结果存储在默认存储级别，即内存。当存储级别设置为 MEMORY_ONLY 时，Persist 将像缓存一样工作。

取消保留 RDD 的语法：-

RDD.unpersist()

7. 什么是Spark Core？

Spark Core 是所有 Spark 应用程序的基础单元。它执行以下功能：内存管理、故障恢复、调度、分发和监控作业以及与存储系统的交互。可以通过用 Java、Scala、Python 和 R 构建的应用程序编程接口 (API) 访问 Spark Core。它包含有助于定义和操作 RDD 的 API。这些 API 有助于将分布式处理的复杂性隐藏在简单的高级运算符背后。它提供与不同数据源的基本连接，如 AWS S3、HDFS、HBase 等。

资料来源：Spark 文档

8. 什么是 RDD 沿袭？

RDD Lineage（RDD operator graph或RDD dependency graph）是包含一个 RDD 的所有父 RDD 的图。

以下转换可以生成上图：-

val r00 = sc.parallelize(0 to 9)
val r01 = sc.parallelize(0 to 90 by 10)
val r10 = r00.cartesian(r01)
val r11 = r00.map(n => (n, n))
val r12 = r00.zip(r01)
val r13 = r01.keyBy(_ / 20)
val r20 = Seq(r11, r12, r13).foldLeft(r10)(_ union _)