spark中会遇到的一些名词

RDD Resillient distributed dataset 弹性分布式数据集
Application Spark的用户程序
Driver Program 运行main函数并且新建SparkContext的程序
Cluster Manager Spark集群资源调度服务(standalone,mesos,yarn)
Worker Node Spark集群中的运行应用代码的节点
Executor worker node的一个进程,负责运行任务,并且负责将数据存在内存或磁盘上。 每个应用都用独立的executor
Task 被送到某个executor上的工作单元
job 包含多个RDD及作用于RDD上的各种operation(每个job包含多个stage,一个 stage是由task完成)
Stage 一个job分为多个阶段
Narrow Dependency 窄依赖,子RDD依赖父RDD中固定的data partition
Wide Dependency 宽依赖,子RDD对父RDD的所有data partition都有依赖
Caching Management 缓存管理,对RDD的中间计算结果进行缓存管理以加快整体的处理速度
可以通过哪些模式运行Spark
Local 使用与windows和linux平台(多用于测试)。
Standalone spark集群模式,使用spark自己的调度方式。
Yarn 对Mapreduce V1升级的经典版本,支持spark。
Mesos 类似Yarn的资源调度框架,提供了有效的、跨分布式应用或框架的资源隔离和共            享,可以运行Hadoop、Spark等框架。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值