application是包括driver 和excutor的所有程序 是以提交的时候为划分标准的
job是以action算子为维度的 我要控制台上产出三个结果 count collect foreach 就是三个job
stage 一组并行的task 是map reduce的类似划分阶段
partition不能跨越文件 也就是说 一个文件可以两个partition可以2个task并行计算
但是反过来不可以 一个task不能执行两个文件
而文件是可以跨block的 一个200mb的文件是2个block块 也就可以说分成让3个partition让3个task并行去进行计算
不知道我这样理解有没有偏差 请各位大数据同僚指正