spark常见算子

最新推荐文章于 2024-05-28 22:46:39 发布

蒙奇.D.庆

最新推荐文章于 2024-05-28 22:46:39 发布

阅读量190

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45292079/article/details/104301238

版权

Transfomation算子

Transfomation算子	描述
map	返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成.就是讲传进去的Rdd的每个元素转换成新的元素
mapPartitions(func)	类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]。假设有N个元素，有M个分区，那么map的函数的将被调用N次,而mapPartitions被调用M次,一个函数一次处理所有分区
flatMap	flatMapRdd算子就是把里面的元素,经过一个方法,把原来的元素由一个变成多个
filter	过滤。返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成
distinct([numTasks]))	对源RDD进行去重后返回一个新的RDD。默认情况下，只有8个并行任务来操作，但是可以传入一个可选的numTasks参数改变它
coalesce(numPartitions)	缩减分区数，用于大数据集过滤后，提高小数据集的执行效率
repartition(numPartitions)	根据分区数，重新通过网络随机洗牌所有数据
sortBy(func,[ascending],[numTasks])	使用func先对数据进行处理，按照处理后的数据比较结果排序，默认为正序
union(otherDataset)	对源RDD和参数RDD求并集后返回一个新的RDD
subtract (otherDataset)	计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来
intersection(otherDataset)	对源RDD和参数RDD求交集后返回一个新的RDD
cartesian(otherDataset)	笛卡尔积（尽量避免使用，没啥用，给自己找事）
partitionBy	对pairRDD进行分区操作，如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区，否则会生成ShuffleRDD，即会产生shuffle过程。
groupByKey	groupByKey也是对每个key进行操作，但只生成一个sequence
reduceByKey(func, [numTasks])	在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，reduce任务的个数可以通过第二个可选的参数来设置。就是对key相同的value进行处理
aggregateByKey（1）zeroValue：给每一个分区中的每一个key一个初始值；（2）seqOp：函数用于在每一个分区中用初始值逐步迭代value；（3）combOp：函数用于合并每个分区中的结果。	在kv对的RDD中，，按key将value进行分组合并，合并时，将每个value和初始值作为seq函数的参数，进行计算，返回的结果作为一个新的kv对，然后再将结果按照key进行合并，最后将每个分组的value传递给combine函数进行计算（先将前两个value进行计算，将返回结果和下一个value传给combine函数，以此类推），将key与计算结果作为一个新的kv对输出
sortByKey([ascending], [numTasks])	在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDD
join(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD就是说两个Rdd的键一样，但值不相同，讲键相同的value整合成数据集
cogroup(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable,Iterable))类型的RDD就是说cogroup:是把两个rdd合并一下;但是两个rdd,得是tuple2;当调用类型为(K，V)和(K，W)的数据集时，返回(K，(Iterable，Iterable)元组的数据集

常见面试题

map()和mapPartition()的区别

map()：每次处理一条数据。
mapPartition()：每次处理一个分区的数据，这个分区的数据处理完后，原RDD中分区的数据才能释放，可能导致OOM。
开发指导：当内存空间较大的时候建议使用mapPartition()，以提高处理效率。

coalesce和repartition的区别

coalesce重新分区，可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定。
repartition实际上是调用的coalesce，默认是进行shuffle的。源码如下：
def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
coalesce(numPartitions, shuffle = true)
}

reduceByKey和groupByKey的区别

reduceByKey：按照key进行聚合，在shuffle之前有combine（预聚合）操作，返回结果是RDD[k,v].
groupByKey：按照key进行分组，直接进行shuffle。
开发指导：reduceByKey比groupByKey，建议使用。但是需要注意是否会影响业务逻辑。

action算子

算子	描述
reduce(func)	通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据
collect()	在驱动程序中，以数组的形式返回数据集的所有元素
count()	返回RDD中元素的个数
first()	返回RDD中的第一个元素
take(n)	返回一个由RDD的前n个元素组成的数组
takeOrdered(n)	返回该RDD排序后（默认升序）的前n个元素组成的数组
countByKey()	针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数
foreach(func)	在数据集的每一个元素上，运行函数func进行更新

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
spark常见算子

Transfomation算子Transfomation算子描述map返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成.就是讲传进去的Rdd的每个元素转换成新的元素mapPartitions(func)类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => I...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。