大数据最全终极核心大数据技术之认识spark

最新推荐文章于 2024-06-17 22:31:37 发布

2401_84184567

最新推荐文章于 2024-06-17 22:31:37 发布

阅读量690

点赞数 17

分类专栏：程序员文章标签：大数据 spark 分布式

本文链接：https://blog.csdn.net/2401_84184567/article/details/138433673

版权

程序员专栏收录该内容

120 篇文章 0 订阅

订阅专栏

以及还有很强的兼容性（Spark可以非常方便地与其他的开源产品进行融合。比如，Spark可以使用Hadoop的YARN和Apache Mesos作为它的资源管理和调度器，器，并且可以处理所有Hadoop支持的数据，包括HDFS、HBase和Cassandra等。这对于已经部署Hadoop集群的用户特别重要，因为不需要做任何数据迁移就可以使用Spark的强大处理能力。Spark也可以不依赖于第三方的资源管理和调度器，它实现了Standalone作为其内置的资源管理和调度框架，这样进一步降低了Spark的使用门槛，使得所有人都可以非常容易地部署和使用Spark。此外，Spark还提供了在EC2上部署Standalone的Spark集群的工具。）

四、Spark和Hadoop
有些人说Spark的出现代表着Hadoop的死亡，这个观点我是不认同的。Hadoop是一个分布式的系统生态，不是靠着Spark这个引擎可以替代的。

但不得不承认，Spark的出现对于Hadoop来说，确实极大程度上弥补了一些短板，对Hadoop造成了一些影响。而Hadoop的生态，包括资源调度和文件存储的部分，对于Spark这个纯引擎来说，也是很有帮助的。

具体来说，Spark帮助Hadoop实现了用户友好。一个将Spark和Hadoop结合起来使用的人，和一个只使用Hadoop生态内工具的人，感受将会是截然不同的。

第一，使用Spark的时候，不再需要考虑怎么样把各种日常的操作硬塞到map和reduce这两个操作中间去。因为Spark提供了抽象程度更高的接口。

第二，使用Spark的时候，不用再为一个查询而等到油尽灯枯。建立在RDD和内存存储中间数据上的Spark，对实时性的支持很高。

在这里简单讲一下RDD。RDD是一个抽象的概念，一个逻辑上的数据结构，中文全称是弹性分布式数据集，最直接的理解就是一个大的dataframe——这个dataframe可能是所有机器上原始数据的总和，也可能是中间计算到某一步得到的一个中间结果形成的dataframe。

spark结构框架

一、Spark Core
实现了 Spark 的基本功能，包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。
数据结构：RDD
二、Spark SQL
Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL操作数据。
数据结构：Dataset/DataFrame = RDD + Schema
三、Spark Streaming
Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API。
数据结构：DStream = Seq[RDD]，DStream离散化流
四、Spark GraphX
Spark中用于图计算的API，性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法。
数据结构：RDD或者DataFrame
五、Spark MLlib
提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。
数据结构：RDD或者DataFrame。

spark部署模式

1、local
spark 任务在本地运行，local[k] 就代表启动 k 个线程来运行，local[*] 就代表启动全部线程来运行。

2、standalone
独立地运行在一个集群上。

3、yarn
运行在资源管理系统上，如 yarn 和 mesos。

运行，local[*] 就代表启动全部线程来运行。

2、standalone
独立地运行在一个集群上。

3、yarn
运行在资源管理系统上，如 yarn 和 mesos。

常用术语:

Application: Appliction都是指用户编写的Spark应用程序，其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码

Driver: Spark中的Driver即运行上述Application的main函数并创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark中有SparkContext负责与ClusterManager通信，进行资源申请、任务的分配和监控等，当Executor部分运行完毕后，Driver同时负责将SparkContext关闭，通常用SparkContext代表Driver

Executor: 某个Application运行在worker节点上的一个进程，该进程负责运行某些Task，并且负责将数据存到内存或磁盘上，每个Application都有各自独立的一批Executor，在Spark on Yarn模式下，其进程名称为CoarseGrainedExecutor Backend。一个CoarseGrainedExecutor Backend有且仅有一个Executor对象，负责将Task包装成taskRunner,并从线程池中抽取一个空闲线程运行Task，这个每一个oarseGrainedExecutor Backend能并行运行Task的数量取决与分配给它的cpu个数

Cluter Manager：指的是在集群上获取资源的外部服务。目前有三种类型

Standalon : spark原生的资源管理，由Master负责资源的分配

Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架

Hadoop Yarn: 主要是指Yarn中的ResourceManager

Worker: 集群中任何可以运行Application代码的节点，在Standalone模式中指的是通过slave文件配置的Worker节点，在Spark on Yarn模式下就是NoteManager节点

Task: 被送到某个Executor上的工作单元，但hadoopMR中的MapTask和ReduceTask概念一样，是运行Application的基本单位，多个Task组成一个Stage，而Task的调度和管理等是由TaskScheduler负责

Job: 包含多个Task组成的并行计算，往往由Spark Action触发生成，一个Application中往往会产生多个Job

Stage: 每个Job会被拆分成多组Task，作为一个TaskSet，其名称为Stage，Stage的划分和调度是有DAGScheduler来负责的，Stage有非最终的Stage（Shuffle Map Stage）和最终的Stage（Result Stage）两种，Stage的边界就是发生shuffle的地方

DAGScheduler: 根据Job构建基于Stage的DAG（Directed Acyclic Graph有向无环图)，并提交Stage给TASkScheduler。其划分Stage的依据是RDD之间的依赖的关系找出开销最小的调度方法，如下图

TASKSedulter: 将TaskSET提交给worker运行，每个Executor运行什么Task就是在此处分配的. TaskScheduler维护所有TaskSet，当Executor向Driver发生心跳时，TaskScheduler会根据资源剩余情况分配相应的Task。另外TaskScheduler还维护着所有Task的运行标签，重试失败的Task。下图展示了TaskScheduler的作用

RDD的定义

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，
代表一个不可变类型、可分区、里面的元素可并行计算的集合。可以认为RDD是分布式的"列表List或数组Array"(与其说是列表不如说是元组【其本身是不可变类型，只能通过血缘追踪】

RDD 五大特性
第一个：A list of partitions
每个RDD都由一系列的分区构成**
对于RDD来说，每个分片都会被一个计算任务处理，分片数决定并行度；
用户可以在创建RDD时指定RDD的分片个数，如果没有指定，那么就会采用默认值.

第二个：A function for computing each split
RDD的计算操作，是对RDD每个分区的计算**
Spark中RDD的计算是以分片为单位的，计数函数会被作用到每个分区上.

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**

2401_84184567

关注

17
点赞
踩
21

收藏

觉得还不错? 一键收藏
2
评论
大数据最全终极核心大数据技术之认识spark

Stage: 每个Job会被拆分成多组Task，作为一个TaskSet，其名称为Stage，Stage的划分和调度是有DAGScheduler来负责的，Stage有非最终的Stage（Shuffle Map Stage）和最终的Stage（Result Stage）两种，Stage的边界就是发生shuffle的地方。其划分Stage的依据是RDD之间的依赖的关系找出开销最小的调度方法，如下图。而Hadoop的生态，包括资源调度和文件存储的部分，对于Spark这个纯引擎来说，也是很有帮助的。
复制链接

扫一扫