大数据学习之spark(一）

最新推荐文章于 2022-10-18 23:11:23 发布

Forever_alone444

最新推荐文章于 2022-10-18 23:11:23 发布

阅读量354

点赞数 1

分类专栏： Spark 文章标签：大数据运算框架

本文链接：https://blog.csdn.net/qq_39586409/article/details/86422159

版权

Spark 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

@大数据学习之spark

spark的前世今生

**
源代码库
https://github.com/apache/spark
Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中， Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍，即便是运行程序于硬盘时，Spark也能快上10倍速度。Spark允许用户将数据加载至集群存储器，并多次对其进行查询，非常适合用于机器学习算法。

使用Spark需要搭配集群管理员和分布式存储系统。Spark支持独立模式（本地Spark集群）、Hadoop YARN或Apache Mesos的集群管理。在分布式存储方面，、Spark可以和HDFS、Cassandra、OpenStack、Swift和AmazonS3等接口搭载。
Spark也支持伪分布式（pseudo-distributed）本地模式，不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下，Spark仅在一台机器上使用每个CPU核心运行程序。

在2014年有超过465位贡献家投入Spark开发，让其成为Apache软件基金会以及大数据众多开源项目中最为活跃的项目。。（来自WIKI百科）

spark的基本概念

简单介绍spark的一些基本名词概念：
RDD（resillient distributed dataset）：弹性分布式数据集。Spark应用程序通过使用Spark的转换API可以将RDD封装为一系列具有血缘关系的RDD，也就是DAG。只有通过Spark的动作API才会将RDD及其DAG提交到DAGScheduler。RDD的祖先一定是一个跟数据源相关的RDD，负责从数据源迭代读取数据。
DAG（Directed Acycle graph）：有向无环图。在图论中，如果一个有向图无法从某个顶点出发经过若干条边回到该点，则这个图是一个有向无环图（DAG图）。Spark使用DAG来反映各RDD之间的依赖或血缘关系。
Partition：数据分区。即一个RDD的数据可以划分为多少个分区。Spark根据Partition的数量来确定Task的数量。
NarrowDependency：窄依赖。即子RDD依赖于父RDD中固定的Partition。NarrowDependency分为OneToOneDependency和RangeDependency两种。
ShuffleDependency：Shuffle依赖，也称为宽依赖。即子RDD对父RDD中的所有Partition都可能产生依赖。子RDD对父RDD各个Partition的依赖将取决于分区计算器（Partitioner）的算法。
Job：用户提交的作业。当RDD及其DAG被提交给DAGScheduler调度后，DAGScheduler会将所有RDD中的转换及动作视为一个Job。一个Job由一到多个Task组成。
Stage：Job的执行阶段。DAGScheduler按照ShuffleDependency作为Stage的划分节点对RDD的DAG进行Stage划分（上游的Stage将为ShuffleMapStage）。因此一个Job可能被划分为一到多个Stage。Stage分为ShuffleMapStage和ResultStage两种。
Task：具体执行任务。一个Job在每个Stage内都会按照RDD的Partition 数量，创建多个Task。Task分为ShuffleMapTask和ResultTask两种。ShuffleMapStage中的Task为ShuffleMapTask，而ResultStage中的Task为ResultTask。ShuffleMapTask和ResultTask类似于Hadoop中的 Map任务和Reduce任务。

spark的组件

组件图

组件用法简述

Spark Core核心
spark-SQL
spark-streaming
Milb
spark-graphx
CLuster Managers

spark特色：

Java、Scala、Python和R APIs。
可扩展至超过8000个结点。
能够在存储器内缓存数据集以进行交互式数据分析。
Scala或Python中的交互式命令行接口可降低横向扩展数据探索的反应时间。
Spark Streaming对即时数据流的处理具有可扩展性、高吞吐量、可容错性等特点。
Spark SQL支持结构化和关系式查询处理（SQL）。
MLlib机器学习算法和Graphx图形处理算法的高端库

spark模型设计

Spark 应用程序从编写到提交、执行、输出的整个过程如图
1）用户使用SparkContext提供的API（常用的有textFile、sequenceFile、runJob、stop等）编写Driver application程序。此外，SparkSession、DataFrame、SQLContext、HiveContext及StreamingContext都对SparkContext进行了封装，并提供了DataFrame、SQL、Hive及流式计算相关的API。

2）使用SparkContext提交的用户应用程序，首先会通过RpcEnv向集群管理器（Cluster Manager）注册应用（Application）并且告知集群管理器需要的资源数量。集群管理器根据Application的需求，给Application分配Executor资源，并在Worker上启动CoarseGrainedExecutorBackend进程（CoarseGrainedExecutorBackend进程内部将创建Executor）。Executor所在的CoarseGrainedExecutorBackend进程在启动的过程中将通过RpcEnv直接向Driver注册Executor的资源信息，TaskScheduler将保存已经分配给应用的Executor资源的地址、大小等相关信息。然后，SparkContext根据各种转换API，构建RDD之间的血缘关系（lineage）和DAG，RDD构成的DAG将最终提交给DAGScheduler。DAGScheduler给提交的DAG创建Job并根据RDD的依赖性质将DAG划分为不同的Stage。DAGScheduler根据Stage内RDD的Partition数量创建多个Task并批量提交给TaskScheduler。TaskScheduler对批量的Task按照FIFO或FAIR调度算法进行调度，然后给Task分配Executor资源，最后将Task发送给Executor由Executor执行。此外，SparkContext还会在RDD转换开始之前使用BlockManager和BroadcastManager将任务的Hadoop配置进行广播。

3）集群管理器（Cluster Manager）会根据应用的需求，给应用分配资源，即将具体任务分配到不同Worker节点上的多个Executor来处理任务的运行。Standalone、YARN、Mesos、EC2等都可以作为Spark的集群管理器。

4）Task在运行的过程中需要对一些数据（例如中间结果、检查点等）进行持久化，Spark支持选择HDFS 、Amazon S3、Alluxio（原名叫Tachyon）等作为存储。

用户使用

spark的基本架构

从集群部署的角度来看，Spark集群由集群管理器（Cluster Manager）、工作节点（Worker）、执行器（Executor）、驱动器（Driver）、应用程序（Application）等部分组成，它们之间的整体关系如图
在这里插入图片描述
（1）Cluster Manager
Spark的集群管理器，主要负责对整个集群资源的分配与管理。Cluster Manager在Yarn部署模式下为ResourceManager；在Mesos部署模式下为Mesos master；在Standalone部署模式下为Master。Cluster Manager分配的资源属于一级分配，它将各个Worker上的内存、CPU等资源分配给Application，但是并不负责对Executor的资源分配。Standalone部署模式下的Master会直接给Application分配内存、CPU以及Executor等资源。目前，Standalone、YARN、Mesos、EC2等都可以作为Spark的集群管理器。
（2）Worker
Spark的工作节点。在Yarn部署模式下实际由NodeManager替代。Worker节点主要负责以下工作：将自己的内存、CPU等资源通过注册机制告知Cluster Manager；创建Executor；将资源和任务进一步分配给Executor；同步资源信息、Executor状态信息给Cluster Manager等。在Standalone部署模式下，Master将Worker上的内存、CPU以及Executor等资源分配给Application后，将命令Worker启动CoarseGrainedExecutorBackend进程（此进程会创建Executor实例）。
（3）Executor
执行计算任务的一线组件。主要负责任务的执行以及与Worker、Driver的信息同步。
（4）Driver
Application的驱动程序，Application通过Driver与Cluster Manager、Executor进行通信。Driver可以运行在Application中，也可以由Application提交给Cluster Manager并由Cluster Manager安排Worker运行。
（5）Application
用户使用Spark提供的API编写的应用程序，Application通过Spark API将进行RDD的转换和DAG的构建，并通过Driver将Application注册到Cluster Manager。Cluster Manager将会根据Application的资源需求，通过一级分配将Executor、内存、CPU等资源分配给Application。Driver通过二级分配将Executor等资源分配给每一个任务，Application最后通过Driver告诉Executor运行任务。

知识补充

MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念“Map（映射）”和“Reduce（归纳）”，及他们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性。
当前的软件实现是指定一个Map（映射）函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce（归纳）函数，用来保证所有映射的键值对中的每一个共享相同的键组。

Forever_alone444

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据学习之spark(一）

@大数据学习之spark**spark的前世今生**源代码库 https://github.com/apache/sparkApache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中， Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。 ...
复制链接

扫一扫