Spark名词解释

Spark的相关名词有时候学着学着会弄混,就趁着这次自己总结一次,也许不是很好,但不能因此就放弃不写;

Driver

提交Spark Application(应用)的机器。有些算子操作也需要对Driver端操作,如使用collect, show等算子,需要汇集到Driver端,对Driver的计算性能,内存都有一定要求。

Worker

计算节点(机器),该机器用于计算Application代码。

Executor

  • executor-num 数量
  • executor-core 每个executor分配的虚拟计算核数
  • executor-memory 每个executor分配的内存
    Executor是Worker节点上用于计算的进程,每个executor进程有多个task,多个task以多线程形式运行。
    该图片非原创

该图片来自http://www.raincent.com/content-85-11052-1.html

Spark会分析Application的计算逻辑,并作出计划(就是常说的DAG有向无环图),并把任务拆分成多个Job(任务),再将每个Job划分成多个Stage(阶段),每个Stage又划分成多个task

Job

spark应用中有多个action操作,每个action会触发RunJob操作,也就是每个action操作就出现一个job

Stage

spark将一个个的job又拆分个多个stage,而拆分stage的依据则是,是否产生shuffle操作进行划分

Task

worker下有多个executor进程,executor下有多个task,task以多线程形式运行。

  1. 在普通的RDD计算操作时,RDD有多少个Partition就有多少个task计算
  2. 在读取HDFS文件时,task数目默认以文件所占的Block数目

Partition

patition就是分区,将数据集RDD分成多个partition分区,计算时就会分成对应数量的task,多个task将并行计算。在资源足够的前提下,且暂不考虑分布式时的网络传输速率,task越多,并行度越大,计算速度越快。所以提高patition通常也就是我们常说的增加并行度的方式。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值