这样做的目的就是为了分布式,例如不分区RDD就可能是RDD(1,2,3,4),假如有3个计算节点(3个worker),那么计算节点之间怎么分配数据就没有一个统一规则;分区之后可能就是RDD(1,2) (3,4)。这样如需计算时,就把1和2发送给一个worker,把3和4发送给另一个worker,按分区完成数据的分发。
RDD为什么会分区??
最新推荐文章于 2023-06-06 08:41:58 发布
这样做的目的就是为了分布式,例如不分区RDD就可能是RDD(1,2,3,4),假如有3个计算节点(3个worker),那么计算节点之间怎么分配数据就没有一个统一规则;分区之后可能就是RDD(1,2) (3,4)。这样如需计算时,就把1和2发送给一个worker,把3和4发送给另一个worker,按分区完成数据的分发。