python函数传参会使rdd再计算一遍吗_python – 如何从RDD中删除重复的值[PYSPARK]

我恐怕没有关于python的知识,所以在这个答案中提供的所有引用和代码都与java相关.但是,将其转换成python代码不是很难.

您应该查看以下webpage.它重定向到Spark的官方网页,该网页提供了Spark支持的所有转换和操作的列表.

如果我没有错误,最好的方法(在你的情况下)将是使用distinct()转换,它返回一个新数据集,它包含源数据集的不同元素(取自链接).在java中,它会是这样的:

JavaPairRDD myDataSet = //already obtained somewhere else

JavaPairRDD distinctSet = myDataSet.distinct();

所以,例如:

Partition 1:

1-y | 1-y | 1-y | 2-y

2-y | 2-n | 1-n | 1-n

Partition 2:

2-g | 1-y | 2-y | 2-n

1-y | 2-n | 1-n | 1-n

将转换为:

Partition 1:

1-y | 2-y

1-n | 2-n

Partition 2:

1-y | 2-g | 2-y

1-n | 2-n |

当然,你仍然会有多个RDD数据集,每个都有一个不同元素的列表.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值