[Pyspark]RDD常用方法总结
aggregate(zeroValue, seqOp, combOp)入参:zeroValue表示一组初值 TupleseqOp表示在各个分区partition中进行 什么样的聚合操作,支持不同类型的聚合 FunccombOp表示将不同分区partition聚合后的结果再进行聚合,只能进行同类型聚合 Func返回:聚合后的结果,不是RDD,是一个python对象下面是对一组数进行累加,并计算数据的长度的例子 # sum, sum1, sum2 的数据类型跟zeroV
原创
2020-06-05 14:30:30 ·
1380 阅读 ·
0 评论