Spark中几个重要名词

 

 

spark几个名词

1 job,一个action操作触发一个job 

action的一些操作http://spark.apache.org/docs/latest/programming-guide.html#actions 

2 stage划分

  1)有shuffle操作,则shuffle之前为一个 stage

  2)数据落地输出则为一个 stage

 

3 Task为具体的任务执行单位,个人理解为一个线程,Task的划分取决于几个方面

  1) 分配的cpu数目和cpu的核数,cpu数目*cpu的核数则为总得任务数量。

  2)总分区数量Partition 

  如果1中的数量小于2中的数量则为1的任务数,否则为2中的分区数量,即Partition数量决定执行的并发数。

  如果元数据分区太少,可以重新分区,否则不会有并发。

4 worker个人理解为工作的机器数量,Worker Node就是物理节点。

5 Executor,为worker机器上cpu的数量,如果设置num-executors=5,则分配给这个任务5个cpu去执行Task,

  如果executor-cores=10,则每个cpu分配的核数为10,即每个executor上启动10个线程执行任务,总得分配的Task为5*10。

  executor-memory=2g为每个Task分配的内存为2g,这个值过大,则会影响启动的executor的数量。

  spark-submit --master  yarn-cluster  --name importdtaweather3  --num-executors 10  --executor-cores 12  --executor-memory 3g --queue  def0  --class  com.jusn.spark.test.DFTestRowkeySelf  weatherimport-1.0-jar-with-dependencies.jar

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值