1.美图
默认参数, 如果你输入的数据大于200个partition或者在数据数据的时候加入partition参数就可以改变了
park中有partition的概念,每个partition都会对应一个task,task越多,在处理大规模数据的时候,就会越有效率。不过task并不是越多越好,如果平时测试,或者数据量没有那么大,则没有必要task数量太多。
partition分区概念
分区概念spark的分区是RDD里的一个概念,RDD为分布式弹性工作集,因为数据量很大,所以RDD分布在各个节点分区里,我们操作RDD,实际上就是操作分区的数据
对应关系
spark parition和HDFS block的初始数量关系基本认为一对一
spark partition和kafka parition的初始数量关系也是一对一
没有shuffle过程,partition是不变的 ,经过shuffle,可以通过算子改变或者通过colease()和repaitition()改变