RDD 数据操作主要有两个动作

最新推荐文章于 2022-10-07 21:18:40 发布

dian张

最新推荐文章于 2022-10-07 21:18:40 发布

阅读量1.6k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/u013086392/article/details/78677187

版权

spark 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

Transformations(转换)：return a new RDD
map(f : T ) U) : RDD[T] ) RDD[U]返回一个新的分布式数据集，由每个原元素经过func函数转换后组成
filter(f : T ) Bool) : RDD[T] ) RDD[T]返回一个新的数据集，由经过func函数后返回值为true的原元素组成
flatMap(f : T ) Seq[U]) : RDD[T] ) RDD[U]类似于map，但是每一个输入元素，会被映射为0到多个输出元素（因此，func函数的返回值是一个Seq，而不是单一元素）
sample(fraction : Float) : RDD[T] ) RDD[T] (Deterministic sampling)根据给定的随机种子seed，随机抽样出数量为frac的数据
groupByKey() : RDD[(K, V)] ) RDD[(K, Seq[V])]在一个由（K,V）对组成的数据集上调用，返回一个（K，Seq[V])对的数据集。注意：默认情况下，使用8个并行任务进行分组，你可以传入numTask可选参数，根据数据量设置不同数目的Task
reduceByKey(f : (V; V) ) V) : RDD[(K, V)] ) RDD[(K, V)] 在一个（K，V)对的数据集上使用，返回一个（K，V）对的数据集，key相同的值，都被使用指定的reduce函数聚合到一起。和groupbykey类似，任务的个数是可以通过第二个可选参数来配置的。
union() : (RDD[T]; RDD[T]) ) RDD[T]返回一个新的数据集，由原数据集和参数联合而成
join() : (RDD[(K, V)]; RDD[(K, W)]) ) RDD[(K, (V, W))]在类型为（K,V)和（K,W)类型的数据集上调用，返回一个（K,(V,W))对，每个key中的所有元素都在一起的数据集
cogroup() : (RDD[(K, V)]; RDD[(K, W)]) ) RDD[(K, (Seq[V], Seq[W]))]
crossProduct() : (RDD[T]; RDD[U]) ) RDD[(T, U)]
mapValues(f : V ) W) : RDD[(K, V)] ) RDD[(K, W)] (Preserves partitioning)
sort(c : Comparator[K]) : RDD[(K, V)] ) RDD[(K, V)]
partitionBy(p : Partitioner[K]) : RDD[(K, V)] ) RDD[(K, V)]

Action(动作):
count() : RDD[T] ) Long
collect() : RDD[T] ) Seq[T]
reduce(f : (T; T) ) T) : RDD[T] ) T
lookup(k : K) : RDD[(K, V)] ) Seq[V] (On hash/range partitioned RDDs)
save(path : String) : Outputs RDD to a storage system, e.g., HDFS

这里写图片描述