大数据值spark入门

最新推荐文章于 2024-06-19 23:05:00 发布

HW_870754395

最新推荐文章于 2024-06-19 23:05:00 发布

阅读量147

点赞数

分类专栏：大数据学习笔记文章标签：大数据 spark

学习笔记同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

大数据

21 篇文章 2 订阅

订阅专栏

大数据值spark入门

一、什么是spark?
二、spark运行模式
三、spark组件

一、什么是spark?

spark是一个用来实现快速而通用的集群计算的平台
是对MapReuduce计算模型的扩展
高效地支持更多的计算模式，包括交互式查询和流处理
重要特点：能够在内存中计算

二、spark运行模式

local

主要用于开发调试Spark应用程序

Standlone

利用Spark自带的资源管理与调度器运行Spark集群，采用Master/Slave结构，为解决单点故障，可以采用Xookeeper实现高可靠

Apache Mesos

运行在Mesos资源管理框架基础之上，该集群运行模式将资源管理交给Mesos，Spark只负责运行任务调度和计算

Hadoop YARN

集群运行在Yarn资源管理器上，资源管理交给YARN,spark负责任务调度和计算

三、spark组件

在这里插入图片描述
如上图，一个完整的spark应用程序：

由一个驱动程序(Driver program)来发起集群上的各种并行操作
驱动器程序包含应用的main函数
驱动器负责创建SparkContext
sparkContext可以与不同种类的集群资源管理器(Cluster Manager)进行通信
获取到集群所需的资源后，SparkContext将得到集群中工作节点(Worker Node)上对应的Executor
不同的Spark程序有不同的Executor，他们之间是相互独立的进程，Executor为应用程序提供分布式计算以及数据存储功能
SparkContext将应用程序代码发送到各Executor,最后将任务分配给executor执行

（1）ClusterManager：控制整个集群，监控worker。在Standalone模式为Master节点；在YARN模式中为ResourceManager
（2）Worker：从节点，负责控制计算节点，启动Executor或Driver。在Standalone模式中为slave；在YARN模式中，为NodeManager
（3）Driver：运行应用的main函数，并创建SparkContext
（4）Executor：执行器，在worker node上执行任务的组件、用于启动线程池运行任务，每个应用拥有独立的一组Executor
（5）SparkContext：整个应用的上下文，控制应用的生命周期
（6）RDD：spark的计算单元
（7）DAG Scheduler：根据作业构建基于Stage的DAG,并提交Stage给TaskScheduler
（8）TaskScheduler：将任务分发给Executor
（9）SparkEnv：线程级别的上下文，存储运行时的重要组件的引用

在这里插入图片描述

参考博文

HW_870754395

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据值spark入门

大数据值spark入门一、什么是spark?二、spark运行模式localStandloneApache MesosHadoop YARN三、spark组件一、什么是spark?spark是一个用来实现快速而通用的集群计算的平台是对MapReuduce计算模型的扩展高效地支持更多的计算模式，包括交互式查询和流处理重要特点：能够在内存中计算二、spark运行模式local主要用...
复制链接

扫一扫

专栏目录