Spark的运行架构

Spark application由一组独立进程构成,通过SparkContext在集群上协调运行。它连接到Cluster Manager,如Spark自带、Mesos或YARN,申请executor资源。Executor进程负责计算和数据存储,且每个application有自己的executor,生命周期内独立运行。tasks由driver program调度并发送到executor执行,executor以多线程运行tasks,实现任务隔离。driver必须监听executor连接,建议与worker节点在同一网络环境下运行。
摘要由CSDN通过智能技术生成

原官网。http://spark.apache.org/docs/latest/cluster-overview.html

术语 含义
Application 基于spark构建的用户程序代码。由集群上的一个driver program 和多个executor
Application jar 一个包含用户Spark应用的Jar
Driver program 这是一个进程,运行我们application里的main()方法,并创建SparkContext()
Cluster manager 集群管理器,这是一个外部的服务,为了在集群上申请资源(e.g. standalone manager,Mesos,YARN),就是通过CM在YARN,Mesos…上申请资源,所以叫集群管理器
Deploy mode 部署模式,决定了你的driver跑在哪里。–deploy-mode “client” (本地)or “cluster”(集群)
Worker node 一个运行我们应用程序代码的节点 ,对于YARN来说就是nodemanager
Executor 这是一个在worker上启动的一个进程,如果用YARN,那我们的Executor就跑在Container里面,一个executor能够运行多个task,能够存数据,放在内存或者磁盘上面。每
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值