python输入数字并排序_python – 为什么sortBy()无法在Spark中均匀地对数据进行排序?...

因为它不是为了设计的.通常情况下,不可能对数据进行分区(包括范围分区)以实现相同大小的分区.请记住,通过分区程序的合同,特定值的所有记录都必须驻留在单个分区上.即使在可以实现均匀分布的情况下,确定精确的分区边界也会非常昂贵.

因为Spark的样本数据的目标是获得大致相同大小的范围,这种行为对于典型的Spark应用程序来说已经足够了.

SparkContext.parallelize根本不使用分区器.相反,它根据特定输入的语义计算拆分,因此可以创建相同大小的拆分.

如果您事先了解数据分布,则可以始终设计自定义分区功能,从而获得所需的输出.例如:

import bisect

from functools import partial

partition_func = partial(bisect.bisect, [2, 4, 6, 8])

(sc.range(0, 10)

.map(lambda x: (x, None))

.repartitionAndSortWithinPartitions(5, partition_func)

.keys())

对于CPython中相对较短(最多1 <<60左右)的整数序列,您可以使用散列分区:

(sc.range(0, 10, 1)

.map(lambda x: (x, None))

.partitionBy(10)

.keys()

.glom()

.collect())

[[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]]

但它只是一个实现细节(hash(x),其中isinstance(x,int)等于x).

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值