大数据—— Spark Core 知识点整理

原创

已于 2022-10-01 21:38:32 修改 · 1.3k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#spark #big data #大数据

于 2021-09-14 10:30:50 首次发布

1. Spark 和 Hadoop 相比有什么优势

运行速度快：

Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是Hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可以高达100多倍。

适用场景广泛：

大数据分析统计，实时数据处理，图计算及机器学习

易用性：

编写简单，支持80种以上的高级算子，支持多种语言，数据源丰富，可部署在多种集群中

容错性高：

Spark引进了弹性分布式数据集RDD (Resilient Distributed Dataset) 的抽象，它是分布在一组节点中的只读对象集合，这些集合是弹性的，如果数据集一部分丢失，则可以根据“血统”（即充许基于数据衍生过程）对它们进行重建。另外在RDD计算时可以通过CheckPoint来实现容错，而CheckPoint有两种方式：CheckPoint Data，和Logging The Updates，用户可以控制采用哪种方式来实现容错。

2. Spark的适用场景

目前大数据处理场景有以下几个类型：

复杂的批量处理（Batch Data Processing），偏重点在于处理海量数据的能力，至于处理速度可忍受，通常的时间可能是在数十分钟到数小时；
基于历史数据的交互式查询（Interactive Query），通常的时间在数十秒到数十分钟之间
基于实时数据流的数据处理（Streaming Data Processing），通常在数百毫秒到数秒之间

3. Spark 中有几种部署模式

本地模式（方便本地调试）：

Spark 程序运行于本地，通过local[]指定线程的数量，本地模式分为三类：

（1）local：只启动一个 executor

（2）local[k]：启动 k 个 executor

（3）local[*]：启动跟 cpu 数量相同的 executor

StandAlone 模式：

分布式部署集群，自带完整的服务，资源管理和任务监控是 Spark 自己监控，也是其他模式的基础

Spark on yarn 模式：

分布式部署集群，资源和任务监控交给 yarn 管理，Spark 客户端直接连接 Yarn，不需要额外构建 Spark 集群。有 yarn-client 和 yarn-cluster 两种模式，主要区别在于：Driver 程序的运行节点。

（1）cluster 适合生产，Driver 运行在集群子节点，具有容错功能

（2）client 适合调试，Driver 运行于客户端

4. Spark 的架构及架构中的基本组件

Spark的架构

采用了分布式计算中的Master-Slave模型，Master是对应集群中的含有Master进程的节点，Slave是集群中含有Worker进程的节点。Master作为整个集群的控制器，负责整个集群的正常运行；Worker相当于是计算节点，接收主节点命令与进行状态汇报；Executor负责任务的执行；Client作为用户的客户端负责提交应用，Driver负责控制一个应用的执行，组成图如下：

　　Spark集群部署后，需要在主节点和从节点分别启动Master进程和Worker进程，对整个集群进行控制。在一个Spark应用的执行过程中，Driver和Worker是两个重要角色。Driver程序是应用逻辑执行的起点，负责作业的调度，即Task任务的分发，而多个Worker用来管理计算节点和创建Executor并行处理任务。在执行阶段，Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机器，同时Executor对相应数据分区的任务进行处理。

Spark的架构中的基本组件：

Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器
Worker：从节点，负责控制计算节点，启动Executor或者Driver。在YARN模式中为NodeManager，负责计算节点的控制。
Driver：运行Application的main()函数并创建SparkContext。
Executor：执行器，在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executor。
SparkContext：整个应用的上下文，控制应用的生命周期。
RDD：Spark的基础计算单元，一组RDD可形成执行的有向无环图RDD Graph。
DAG Scheduler：根据作业（task）构建基于Stage的DAG，并提交Stage给TaskScheduler。
TaskScheduler：将任务（task）分发给Executor执行。
SparkEnv：线程级别的上下文，存储运行时的重要组件的引用。

5. Spark 的运行流程

构建Spark Application的运行环境，启动SparkContext
SparkContext向资源管理器（可以是Standalone，Mesos，Yarn）申请运行Executor资源，并启动StandaloneExecutorbackend
Executor向SparkContext申请Task
SparkContext将应用程序分发给Executor
SparkContext构建成DAG图，将DAG图分解成Stage、将Taskset发送给Task Scheduler，最后由Task Scheduler将Task发送给Executor运行
Task在Executor上运行，运行完释放所有资源

6. Spark 中RDD的概述和特性

概念：

RDD（Resilient Distributed Dataset），弹性分布式数据集，是 Spark 中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

RDD 五大特性：

A list of partitions 一个分区列表，RDD 中的数据都存在一个分区列表里面
A function for computing each split 作用在每一个分区中的函数
A list of dependencies on other RDDs 一个 RDD 依赖与其他多个 RDD，这个点很重要，RDD 的容错机制就是依据这个特性而来的
Optionally,