Spark技术手册

最新推荐文章于 2024-05-16 10:24:30 发布

置顶

_PhotoAndCoding_

最新推荐文章于 2024-05-16 10:24:30 发布

阅读量465

点赞数 1

分类专栏： spark 开发技术机器学习自学笔记 Spark大数据处理框架专栏文章标签： spark 大数据批处理

本文链接：https://blog.csdn.net/roczheng1990/article/details/93711112

版权

一总览

1.1 spark说明：

官方原话：Lightning-fast cluster computing【快如闪电的批处理框架】

快速、通用的大数据处理引擎。

1.2 spark特点：

1）提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销；

2）提供了一套支持 DAG 图的分布式并行计算的编程框架,减少多次计算之间中间结果写到 Hdfs 的开销；

3）使用多线程池模型减少 Task 启动开稍, shuffle 过程中避免不必要的 sort 操作并减少磁盘 IO 操作。(Hadoop 的 Map 和 reduce 之间的 shuffle 需要 sort)

1.3 spark框架：

Spark SQL: 提供了类 SQL 的查询,返回 Spark-DataFrame 的数据结构

Spark Streaming: 流式计算,主要用于处理线上实时时序数据

MLlib: 提供机器学习的各种模型和调优

GraphX: 提供基于图的算法,如 PageRank

1.4 spark工作原理：

应用程序(Application): 基于Spark的用户程序，包含了一个Driver Program 和集群中多个的Executor；

驱动(Driver): 运行Application的main()函数并且创建SparkContext;

执行单元(Executor): 是为某Application运行在Worker Node上的一个进程，该进程负责运行Task，并且负责将数据存在内存或者磁盘上，每个Application都有各自独立的Executors;

集群管理程序(Cluster Manager): 在集群上获取资源的外部服务(例如：Local、Standalone、Mesos或Yarn等集群管理系统)；

操作(Operation): 作用于RDD的各种操作分为Transformation和Action.

整个 Spark 集群中,分为 Master 节点与 worker 节点,,其中 Master 节点上常驻 Master 守护进程和 Driver 进程, Master 负责将串行任务变成可并行执行的任务集Tasks, 同时还负责出错问题处理等,而 Worker 节点上常驻 Worker 守护进程, Master 节点与 Worker 节点分工不同, Master 负载管理全部的 Worker 节点,而 Worker 节点负责执行任务.

　　Driver 的功能是创建 SparkContext, 负责执行用户写的 Application 的 main 函数进程,Application 就是用户写的程序.

Spark 支持不同的运行模式,包括Local, Standalone,Mesoses,Yarn 模式.不同的模式可能会将 Driver 调度到不同的节点上执行.集群管理模式里, local 一般用于本地调试.

　　每个 Worker 上存在一个或多个 Executor 进程,该对象拥有一个线程池,每个线程负责一个 Task 任务的执行.根据 Executor 上 CPU-core 的数量,其每个时间可以并行多个跟 core 一样数量的 Task4.Task 任务即为具体执行的 Spark 程序的任务.

“我们使用spark-submit提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。根据你使用的部署模式（deploy-mode）不同，Driver进程可能在本地启动，也可能在集群中某个工作节点上启动。而Driver进程要做的第一件事情，就是向集群管理器（可以是Spark Standalone集群，也可以是其他的资源管理集群，美团•大众点评使用的是YARN作为资源管理集群）申请运行Spark作业需要使用的资源，这里的资源指的就是Executor进程。YARN集群管理器会根据我们为Spark作业设置的资源参数，在各个工作节点上，启动一定数量的Executor进程，每个Executor进程都占有一定数量的内存和CPU core。

　　在申请到了作业执行所需的资源之后，Driver进程就会开始调度和执行我们编写的作业代码了。Driver进程会将我们编写的Spark作业代码分拆为多个stage，每个stage执行一部分代码片段，并为每个stage创建一批Task，然后将这些Task分配到各个Executor进程中执行。Task是最小的计算单元，负责执行一模一样的计算逻辑（也就是我们自己编写的某个代码片段），只是每个Task处理的数据不同而已。一个stage的所有Task都执行完毕之后，会在各个节点本地的磁盘文件中写入计算中间结果，然后Driver就会调度运行下一个stage。下一个stage的Task的输入数据就是上一个stage输出的中间结果。如此循环往复，直到将我们自己编写的代码逻辑全部执行完，并且计算完所有的数据，得到我们想要的结果为止。

　　Spark是根据shuffle类算子来进行stage的划分。如果我们的代码中执行了某个shuffle类算子（比如reduceByKey、join等），那么就会在该算子处，划分出一个stage界限来。可以大致理解为，shuffle算子执行之前的代码会被划分为一个stage，shu

最低0.47元/天解锁文章

_PhotoAndCoding_

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark技术手册

一总览1.1 spark说明：官方原话：Lightning-fast cluster computing【快如闪电的批处理框架】快速、通用的大数据处理引擎。1.2 spark特点：1）提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销；2）提供了一套支持 DAG 图的分布式并行计算的编程框架,减少多次计算之间中间结果写到 Hdfs ...
复制链接

扫一扫