[Pyspark]RDD常用方法总结
aggregate(zeroValue, seqOp, combOp)
入参:
zeroValue表示一组初值 Tuple
seqOp表示在各个分区partition中进行 什么样的聚合操作,支持不同类型的聚合 Func
combOp表示将不同分区partition聚合后的结果再进行聚合,只能进行同类型聚合 Func
返回:
聚合后的结果,不是RDD,是一个python对象
下面是对一组数进行累加,并计算数据的长度的例子
# sum, sum1, sum2 的数据类型跟zeroV
原创
2020-06-05 14:30:30 ·
1372 阅读 ·
0 评论