RDDTransFormation

最新推荐文章于 2022-11-25 16:38:52 发布

激进的兔子

最新推荐文章于 2022-11-25 16:38:52 发布

阅读量210

点赞数

分类专栏： Transformation 文章标签： CombineByKey

本文链接：https://blog.csdn.net/weixin_42749930/article/details/83543156

版权

Transformation 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

RDDTransFormation

combineByKey

combineByKey[C](
createCombiner : V => C,
mergeValue: (C,V) => C,
mergeCombiners : (C,C) => C
)

对相同K，把V合并成一个集合.
createCombiner: combineByKey() 会遍历分区中的所有元素，因此每个元素的键要么还没有遇到过，要么就和之前的某个元素的键相同。如果这是一个新的元素,combineByKey() 会使用一个叫作 createCombiner() 的函数来创建
那个键对应的累加器的初始值
mergeValue: 如果这是一个在处理当前分区之前已经遇到的键，它会使用 mergeValue() 方法将该键的累加器对应的当前值与这个新的值进行合并
mergeCombiners: 由于每个分区都是独立处理的，因此对于同一个键可以有多个累加器。如果有两个或者更多的分区都有对应同一个键的累加器，就需要使用用户提供的 mergeCombiners() 方法将各个分区的结果进行合并

aggregateByKey

aggregateByKey(zeroValue:U,[partitioner: Partitioner]) (seqOp: (U, V) => U,combOp: (U, U) => U)

在kv对的RDD中,按key将value进行分组合并，合并时，将每个value和初始值作为seq函数的参数，进行计算，返回的结果作为一个新的kv对，然后再将结果按照key进行合并，最后将每个分组的value传递给combine函数进行计算（先将前两个value进行计算，将返回结果和下一个value传给combine函数，以此类推），将key与计算结果作为一个新的kv对输出。
seqOp函数用于在每一个分区中用初始值逐步迭代value，combOp函数用于合并每个分区中的结果

foldByKey

foldByKey(zeroValue: V)(func: (V, V) => V): RDD[(K, V)]

aggregateByKey的简化操作,seqop和combop相同

sortByKey

sortByKey([ascending], [numTasks])
//eg:
scala> val rdd = sc.parallelize(Array((3,"aa"),(6,"cc"),(2,"bb"),(1,"dd")))
rdd: org.apache.spark.rdd.RDD[(Int, String)] = ParallelCollectionRDD[14] at parallelize at <console>:24

scala> rdd.sortByKey(true).collect()
res9: Array[(Int, String)] = Array((1,dd), (2,bb), (3,aa), (6,cc))

scala> rdd.sortByKey(false).collect()
res10: Array[(Int, String)] = Array((6,cc), (3,aa), (2,bb), (1,dd))

在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDD

pipe

pipe(command, [envVars])

对于每个分区，都执行一个perl或者shell脚本，返回输出的RDD

coalesce

coalesce(numPartitions)

缩减分区数，用于大数据集过滤后，提高小数据集的执行效率

repartition

repartition(numPartitions)

根据分区数，从新通过网络随机洗牌所有数据,整体洗牌

repartitionAndSortWithinPartitions

repartitionAndSortWithinPartitions(partitioner)

repartitionAndSortWithinPartitions函数是repartition函数的变种，与repartition函数不同的是，repartitionAndSortWithinPartitions在给定的partitioner内部进行排序，性能比repartition要高。

glom

将每一个分区形成一个数组，形成新的RDD类型时RDD[Array[T]]

mapValues

针对于(K,V)形式的类型只对V进行操作

subtract

scala> val rdd = sc.parallelize(3 to 8)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[70] at parallelize at <console>:24

scala> val rdd1 = sc.parallelize(1 to 5)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[71] at parallelize at <console>:24

scala> rdd.subtract(rdd1).collect()
res27: Array[Int] = Array(8, 6, 7)