spark中的partion是弹性分布式数据集RDD的最小单元,RDD是由分布在各个节点上的partion组成的。partion是指的spark在计算过程中,生成的数据在计算空间内最小单元,同一份数据(RDD)的partion大小不一,数量不定,是根据application里的算子和最初读入的数据分块数量决定的,这也是为什么叫“弹性分布式”数据集的原因之一。
rdd的partition既然是不可控,可以根据算子与最初读入时动态设定,哪么像类似的mapWith,zipPartition之类的与partition的index相关的算子有存在的意义吗?