自己对Spark的application job stage partition block的一些概念见解
application是包括driver 和excutor的所有程序 是以提交的时候为划分标准的
job是以action算子为维度的 我要控制台上产出三个结果 count collect foreach 就是三个job
stage 一组并行的task 是map reduce的类似划分阶段
partition不能跨越文件 也就是说 一个文件可以两个partition可以2个task并行计算...
原创
2018-07-22 17:35:14 ·
221 阅读 ·
0 评论