出错代码:
rdd.coalesce(1).saveAsTextFile(outpath)
解决:
将coalesce改成repartition即可
原因:
repartition会开一个shuffle将文件进行合并,所以他的上游还是多个partition并行运行的。
而coalesce是直接用一个分区处理所有数据。
出错代码:
rdd.coalesce(1).saveAsTextFile(outpath)
解决:
将coalesce改成repartition即可
原因:
repartition会开一个shuffle将文件进行合并,所以他的上游还是多个partition并行运行的。
而coalesce是直接用一个分区处理所有数据。