我正在浏览spark的文档.我对rdd.repartition()函数和我们在sc.parallelize()中的上下文初始化期间传递的分区数有点困惑.
我的机器上有4个内核,如果我sc.parallelize(数据,4)一切正常,但当我rdd.repartition(4)并应用rdd.mappartitions(有趣)时,分区有时没有数据,我的功能失败了这种情况.
所以,只是想了解这两种分区方式之间的区别.
最佳答案 通过调用repartition(N)spark将会改变分区数量(默认情况下会产生具有该分区数量的HashPartitioner).当您使用所需数量的分区调用sc.parallelize时,它会在切片中(或者类似于范围分区器)将数据(或多或少)平均分割,您可以在切片函数内的ParallelCollectionRDD中看到这一点.
话虽这么说,有可能这两个sc.parallelize(数据,N)和rdd.reparitition(N)(实际上几乎任何形式的数据读取)都可能导致带有空分区的RDD(它是一个非常常见的来源)使用mapPartitions代码的错误,所以我在spark-testing-base中偏向RDD生成器来创建具有空分区的RDD).对于大多数函数来说,一个非常简单的修复方法就是检查你是否已经在一个空迭代器中传递,并且在这种情况下只返回一个空迭代器.