spark原理简介

最新推荐文章于 2022-05-29 20:28:18 发布

不会飞的乌龟

最新推荐文章于 2022-05-29 20:28:18 发布

阅读量850

点赞数

分类专栏： spark 文章标签： spark简介

本文链接：https://blog.csdn.net/qq_42012160/article/details/116593879

版权

spark 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

spark原理简介

spark简介
spark是基于内存的分布式处理框架，它把要执行的作业拆分成多个任务，然后将任务分发到多个CPU进行处理，处理结果的中间数据存储在内存中，减少了数据处理过程中对硬盘的I/O操作，大大提升了处理效率。
spark和MapReduce对比
       spark相对于mr，性能上提高了100倍。
       spark相对于mr，数据的中间结果存储在内存中，对于数据的迭代处理效率更高；进行批处理的时候效率更高，延迟更低。
       spark相对于mr，提供了更多的数据集操作类型，编程模型比mr更加灵活，开发效率更高。
       spark相对于mr，具有更高的容错能力（血统机制）。
Spark的应用运行架构运行流程如下所示：
       1. 应用程序（Application）是作为一个进程的集合运行在集群上的，由Driver进行协调。
       2. 在运行一个应用时，Driver会去连接集群管理器（Standalone、Mesos、YARN）申请运行Executor资源，并启动ExecutorBackend。然后由集群管理器在不同的应用之间调度资源。Driver同时会启动应用程序DAG调度、Stage划分、Task生成。
       3. 然后Spark会把应用的代码（传递给SparkContext的JAR或者Python定义的代码）发送到Executor上。
       4. 所有的Task执行完成后，用户的应用程序运行结束。
RDD简介
RDD是spark框架中的一个分布式弹性数据集，可以理解为一个存储数据的数据结构。spark会把所有需要处理的数据加载到RDD中，然后在进行处理，即所有的操作都是基于RDD来进行的，而想要对RDD进行操作，只能在重新生成一个新的RDD。RDD是只读和可分区的，当前RDD默认是存储在内存中的，只有当内存不足的时候，RDD才会溢出到磁盘中的。RDD的算子类型分为transformation和action两种类型，其中transformation属于懒操作算子，其不会立刻出发RDD开始处理计算数据，例如map(func)，action是RDD的触发算子类型，该类算子会立刻出发RDD进行计算，例如：foreach(func)，print()。
Shuffle划分
shuffle是划分DAG(有向无环图)中的stage的标注，也是影响spark作业执行速度的关键因素。RDD的transformation函数分为宽依赖操作和窄依赖操作，宽依赖和窄依赖的区别就是看是否发生shuffle(洗牌)操作。shuffle操作如下图：
RDD的宽依赖和窄依赖

窄依赖是指父RDD的每一个分区只能倍子RDD的一个分区使用，表现为父RDD的每一个分区对应一个子RDD分区。如下图：
在这里插入图片描述
宽依赖是指父RDD的每一个分区可以对应多个子RDD分区，表现为一个父RDD分区可以被多个子RDD分区使用。如下图：

spark程序入口
SparkContext是spark的入口，相当于程序中main函数；其表示与spark集群的连接，创建RDD，并记录计算结果和配置环境等。
在spark2.0中，引入了SparkSession的概念，其为用户提供了一个统一的入口，方便用户使用spark的各项功能。SparkSession封装了SparkConf和SparkContext以及SQLContext，方便用户使用spark的各种API。
spark原理
spark架构图，如下

        Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker，在YARN模式中为资源管理器。
       Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。
       Driver：运行Application 的main()函数。
       Executor：执行器，是为某个Application运行在worker node上的一个进程。

不会飞的乌龟

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
spark原理简介

spark简介以及原理spark简介       spark是基于内存的分布式处理框架，它把要执行的作业拆分成多个任务，然后将任务分发到多个CPU进行处理，处理结果的中间数据存储在内存中，减少了数据处理过程中对硬盘的I/O操作，大大提升了处理效率。spark和MapReduce对比       spark相对于mr，性能上提高了100倍。 &
复制链接

扫一扫