请你说说Spark

最新推荐文章于 2024-07-19 16:04:56 发布

Devin_S

最新推荐文章于 2024-07-19 16:04:56 发布

阅读量88

点赞数

分类专栏：大数据面经文章标签： spark 大数据

本文链接：https://blog.csdn.net/Devin_S/article/details/115611508

版权

大数据面经专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Why？为什么要整理这些？

面试中被问到说说对Spark的理解；因为准备不充分，没能很好的表达清楚，所以整理了一下。尽量把重点问题表示清楚

二、What？什么是Spark？

Apache Spark™是用于大规模数据处理的统一分析引擎

1、Spark 的核心模块

Spark Core ：Spark 核心功能实现，包括SparkContext初始化，部署模式，存储体系、任务提交与执行，计算引擎等
Spark Sql ：提供Sql处理能力
Spark Streaming ：流程计算处理能力
GraphX ：图计算处理能力
SparkML 机器学习相关算法

2、基本架构

Cluster Manager：Spark集群管理器，负责资源分配与管理
Worker ：Spark的工作节点，创建Executor并分配任务和资源，同步资源信息给Cluster Manager
Executor ：执行计算任务的一线进程，负责任务执行，与Worker，DriverAPP 之间同步信息
Driver App ：客户端驱动程序，将任务转化为RDD和DAG 与Cluster Manager 通信

spark 工作机制

① 构建 Application 的运行环境，Driver 创建一个 SparkContext
② SparkContext 向资源管理器（Standalone、Mesos、Yarn）申请Executor 资源，资源管理器启动 StandaloneExecutorbackend（Executor）
③ Executor 向 SparkContext 申请 Task
④ SparkContext 将应用程序分发给Executor
⑤ SparkContext 就建成 DAG 图，DAGScheduler 将 DAG 图解析成 Stage，每个 Stage 有多个 task，形成 taskset 发送给 task Scheduler，由task Scheduler 将 Task 发送给 Executor 运行
⑥ Task 在 Executor 上运行，运行完释放所有资源

3、一定要说的RDD

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合

RDD 是Spark 中一个重要的概念之一，Spark的计算过程主要是RDD的迭代技术过程，为什么Spark 要发明RDD呢？

RDD是一个容错、并行的数据结构，可以控制将数据存到内存或者是磁盘，能够获取数据的分区。同时RDD还提供了类似于Scala的操作，比如map，flatMap，filter，groupBy 等；Spark 通过RDD 实现了迭代计算，关系查询,MR, 流式处理等计算模型数据处理上的统一。
在构建DAG过程中会将RDD用依赖关系串联起来。依赖关系分为两种NarrowDependence 和 ShuffleDependence；NarrowDependence会被划分到同一个Stage。这种依赖管辖的建立和划分也保证了RDD的容错能力。当当前RDD执行失败时，可以重新执行父RDD 的计算得到丢失数据。
从数据处理效率上来说，ShuffleDependence所依赖的父RDD的技术过程运行在多个接点上并发执行，在数据量大的情况下可以通过适当增加分区提高执行效率。

4、为什么Spark速度快？

为什么Spark的计算速度快？可能我们首先想到的是基于内存计算，减少了磁盘交互。更重要的一点是基于DAG的高效调度算法，加上 lingage容错机制，即使不使用内存技术spark的速度也大大快与MapReduce。

DAG ：有向无环图 "有向"指的是有方向，准确的说应该是同一个方向，"无环"则指够不成闭环。

5、Spark 内部如何保证保证Exactly-Once语义

Exactly-Once 在流计算引擎中, 算子给下游的结果有且仅有一个，且不重不漏

流计算引擎保证Exactly-Once时一般用到 Micro-Batch（微批）和 Distributed Snapshot(分布式快照)

Spark Streaming将输入的流周期性的划分成一个一个的批次,然后用Spark批处理的方式，处理每个Batch，一个Batch要么成功，要么失败，失败后重新Replay，Recompute。

Distributed Snapshot(分布式快照)，简单来说，就是为了保存分布式系统的Global State，当系统Failure Recovery时，从最近一次成功保存的全局快照中恢复每个节点的状态

参考详细介绍

6、Spark 各部署模式

1、Local 模式

Local模式(单机)就是在一台计算机上运行Spark，通常用于开发中。

提交命令

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local \
--executor-memory 2G \
--total-executor-cores 4 \
examples/jars/spark-examples_2.11-2.3.3.jar \

2、 Standalone 模式

构建一个由 Master + Slave 构成的Spark集群，Spark运行在集群中，只依赖Spark

提交命令

1、Local 模式
Local模式(单机)就是在一台计算机上运行Spark，通常用于开发中。
提交命令
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local \
--executor-memory 2G \
--total-executor-cores 4 \
examples/jars/spark-examples_2.11-2.3.3.jar \
2、 Standalone 模式
构建一个由 Master + Slave 构成的Spark集群，Spark运行在集群中，只依赖Spark
提交命令
## Standalone-Client
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node01:7077 \
--deploy-mode client \
--executor-memory 2G \
--total-executor-cores 4 \
examples/jars/spark-examples_2.11-2.3.3.jar \
10 
#多master提交
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node01:7077,node02:7077  \
--deploy-mode client \
--executor-memory 1G \
--total-executor-cores 2 \
examples/jars/spark-examples_2.11-2.3.3.jar \
10
## Standalone-Cluster
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://node01:7077  \
--deploy-mode cluster \
--executor-memory 1G \
--total-executor-cores 2 \
examples/jars/spark-examples_2.11-2.3.3.jar \
10
3、Yarn  模式
Spark客户端可以直接连接Yarn，不需要构建Spark集群。
有yarn-client和yarn-cluster两种模式，主要区别在：Driver程序的运行节点不同。
yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看见APP输出
yarn-cluster：Driver程序运行在由ResourceManager启动的ApplicationMaster上，适用于生产环境
提交命令
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
examples/jars/spark-examples_2.11-2.3.3.jar \
10

3、Yarn 模式

Spark客户端可以直接连接Yarn，不需要构建Spark集群。

有yarn-client和yarn-cluster两种模式，主要区别在：Driver程序的运行节点不同。

yarn-client：Driver程序运行在客户端，适用于交互、调试，希望立即看见APP输出

yarn-cluster：Driver程序运行在由ResourceManager启动的ApplicationMaster上，适用于生产环境

提交命令

bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
examples/jars/spark-examples_2.11-2.3.3.jar \
10

Devin_S

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
请你说说Spark

一、Why？为什么要整理这些？面试中被问到说说对Spark的理解；因为准备不充分，没能很好的表达清楚，所以整理了一下。尽量把重点问题表示清楚二、What？什么是Spark？Apache Spark™是用于大规模数据处理的统一分析引擎1、Spark 的核心模块Spark Core ：Spark 核心功能实现，包括SparkContext初始化，部署模式，存储体系、任务提交与执行，计算引擎等 Spark Sql ：提供Sql处理能力 Spark Strea...
复制链接

扫一扫