spark提交集群运行_spark学习笔记--集群运行Spark

在集群上运行Spark

Spark运行架构

在分布式环境下,Spark 集群采用的是主 / 从结构。

Spark 应用通过一个叫作集群管理器(Cluster Manager)的外部服务在集群中的机器上启动。Spark 自带的集群管理器被称为独立集群管理器。Spark 也能运行在 Hadoop YARN 和 Apache Mesos 这两大开源集群管理器上。

在一个 Spark 集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点,与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的执行器节点进行通信,它们也都作为独立的 Java 进程运行。驱动器节点和所有的执行器节点一起被称为一个 Spark 应用(application)。

运行机制

驱动器节点

把用户程序转为任务

Spark驱动器程序负责把用户程序转为多个物理执行的单元(称为任务)

所有程序都遵循同样的结构:输出数据创建一系列RDD-> 转化操作派生出新的RDD -> 行动操作手机或存储结果RDD中的数据

有向无环图:Spark隐式地创建一个有操作组成的逻辑上的无向无环图,驱动程序运行可将其转为物理执行计划

为执行器节点调度任务

每个执行器节点代表一个能够处理任务和存储RDD数据的进程,执行器进程启动后,会向驱动器进程注册自己

驱动程序会根据当前的节点集合,尝试把所有任务基于数据所在位置分配给合适的执行器进程,同时执行器运行时,会跟踪各缓存数据的位置,进而调度以后的任务,尽量减少数据的网络传输

Spark进程信

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值