python partition函数_python – rdd.repartition()和sc.parallelize(数据,分区)中的分区大小有什么区别...

我正在浏览spark的文档.我对rdd.repartition()函数和我们在sc.parallelize()中的上下文初始化期间传递的分区数有点困惑.

我的机器上有4个内核,如果我sc.parallelize(数据,4)一切正常,但当我rdd.repartition(4)并应用rdd.mappartitions(有趣)时,分区有时没有数据,我的功能失败了这种情况.

所以,只是想了解这两种分区方式之间的区别.

最佳答案 通过调用repartition(N)spark将会改变分区数量(默认情况下会产生具有该分区数量的HashPartitioner).当您使用所需数量的分区调用sc.parallelize时,它会在切片中(或者类似于范围分区器)将数据(或多或少)平均分割,您可以在切片函数内的ParallelCollectionRDD中看到这一点.

话虽这么说,有可能这两个sc.parallelize(数据,N)和rdd.reparitition(N)(实际上几乎任何形式的数据读取)都可能导致带有空分区的RDD(它是一个非常常见的来源)使用mapPartitions代码的错误,所以我在spark-testing-base中偏向RDD生成器来创建具有空分区的RDD).对于大多数函数来说,一个非常简单的修复方法就是检查你是否已经在一个空迭代器中传递,并且在这种情况下只返回一个空迭代器.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值