PySpark----Action操作

sc = spark.sparkContext
import numpy as np
rdd = sc.parallelize(np.arange(11),3)
rdd.collect()
rdd.aggregate(0,lambda x,y:x+y,lambda x,y:x+y)
rdd.aggregate(8,lambda x,y:x+y,lambda x,y:x+y)
rdd.aggregate(3,lambda x,y:x+y,lambda x,y:x+y)

从结果看到每个分区上调用seqOp函数都要加上zeroValue，最后运行combOp也要加上 zeroValue。3个分区加上最后的combOp所以总共加了四次zeroValue。

2..aggregateByKey(zeroValue, seqFunc, combFunc, numPartitions=None, partitionFunc= )

这个方法用来对相同的key值进行聚合操作，同样的是指定 zeroValue,seqFunc，numPartitoins为分区数，partitionFunc为作用在分区上的函数。

这个方法同aggregate方法名字相似，但是它却是一个transformation方法，不会触发作业的提交！

datas = [('a',22),('b',33),('c',44),('b',55),('a',66)]
rdd = sc.parallelize(datas,3)
rdd.collect()
rdd.aggregateByKey(0,lambda x,y:x+y,lambda x,y:x+y)
rdd.aggregateByKey(1,lambda x,y:x+y,lambda x,y:x+y,1).collect()

3.collect方法

该放回会触发作业的提交，返回一个结果的列表，注意：若结果集较大，使用collect方法可能使driver程序崩溃，因为collect方法会返回所有节点的结果数据到driver节点，造成OOM 或其他的异常。

rdd.collect()

4.collectAsMap()

这个方法仍然是action方法，会触发作业的执行，顾名思义该方法返回的结果是一个字典结构

dd = rdd.collectAsMap()

5.count()方法

统计RDD中元素的个数

rdd.count()

6.countApprox(timeout, confidence=0.95)

带有超时限制的count统计函数，时间一到，即便所有任务还没有完成，该方法也会返回已经完成的任务的统计结果。

rdd = sc.parallelize(range(1000000), 100)
rdd.countApprox(1000, 1.0)

7.countApproxDistinct(relativeSD=0.05)

返回大概的RDD数据集中没有重复数据的数据条数。

rdd1 = sc.parallelize(range(1000000), 100)
rdd2 = sc.parallelize(np.arange(1,1000001),100)
rdd3 = sc.union([rdd1,rdd2])
rdd3.countApproxDistinct()
rdd3.countApproxDistinct(relativeSD=0.01)
rdd3.countApproxDistinct(relativeSD=0.001)

最低0.47元/天解锁文章

XiaodunLP

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
PySpark----Action操作

目录1.aggregate(zeroValue, seqOp, combOp)2..aggregateByKey(zeroValue, seqFunc, combFunc, numPartitions=None, partitionFunc= )3.collect方法4.collectAsMap()5.count()方法6.countApprox(timeout, conf...
复制链接

扫一扫