自己对Spark的application job stage partition block的一些概念见解

application是包括driver 和excutor的所有程序 是以提交的时候为划分标准的

job是以action算子为维度的   我要控制台上产出三个结果 count collect foreach 就是三个job

stage 一组并行的task 是map reduce的类似划分阶段 

partition不能跨越文件 也就是说 一个文件可以两个partition可以2个task并行计算
但是反过来不可以 一个task不能执行两个文件
而文件是可以跨block的 一个200mb的文件是2个block块 也就可以说分成让3个partition让3个task并行去进行计算

 

不知道我这样理解有没有偏差 请各位大数据同僚指正

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值