Spark学习笔记(厦门大学 大数据技术原理与应用)

Spark学习笔记(厦大mooc)

基本概念

  1. RDD:分布式内存的抽象概念,提供了一种高度受限的共享内存模型。
  2. DAG:有向无环图,反映RDD之间的依赖关系。
  3. Executor:是运行在工作节点上的一个进程,负责运行task,整个应用程序是以作业的形式运行,每一个作业一般分为很多个task。Task就在executor中去运行。
  4. Task:运行在Executor上工作单元。
  5. Job,一个应用程序application都是包含多个job的,每个job包含多个RDD以及作用于RDD上的各种操作。
  6. Stage:是job的基本调度单位,一个job会被分为多个相关的task组,每一组task都被称为一个stage,有时候也称之为一个taskSet,每个taskset就代表一组相关联的,相互之间没有shuffle依赖关系的任务组成的任务集。

说明:Spark应用程序里面的作业,就是一整套RDD之间的相互依赖关系和相关的操作构成的。

spark运行基本流程

在这里插入图片描述
1、首先,客户端提交一个应用程序,就必须为这个应用程序构建其基本的运行环境,该基本环境是SparkContext࿰

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值