理解 Spark 的分区器
Spark一般是部署在分布式环境中的(有可能是在区域集中的集群上,也有可能跨城市),而在分布式环境中,数据在各节点进行网络的传递代价是很大的。借用Spark源码里对groupByKey算子的描述(@note This operation may be very expensive 。。。 ),可见一斑。
@note As currently implemented, groupByKey must be able to hold all the key-value pairs for any key in
转载
2020-09-16 10:45:37 ·
410 阅读 ·
0 评论