spark算子

最新推荐文章于 2024-01-12 15:54:32 发布

iwtbs_kevin

最新推荐文章于 2024-01-12 15:54:32 发布

阅读量134

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34219959/article/details/103013266

版权

大数据专栏收录该内容

8 篇文章 0 订阅

订阅专栏

pyspark-RDD
Spark本地: Scala实例
下面是我以前总结的一些常用的Spark算子以及Scala函数：

map()：将原来 RDD 的每个数据项通过 map 中的用户自定义函数 f 映射转变为一个新的元素。

mapPartitions(function) ：map()的输入函数是应用于RDD中每个元素，而mapPartitions()的输入函数是应用于每个分区。

mapValues(function) ：该操作只会改动value

flatMap(function) ：并将生成的 RDD 的每个集合中的元素合并为一个集合

flatMapValues(function)：通过上面的例子可知，该操作也是只操作value，不改变key。

reduceByKey(func,numPartitions：用于对每个key对应的多个value进行merge操作

groupByKey(numPartitions)：将元素通过函数生成相应的 Key，数据就转化为 Key-Value 格式，之后将 Key 相同的元素分为一组。

sortByKey(accending，numPartitions)

cogroup(otherDataSet，numPartitions)

join(otherDataSet,numPartitions)：找出左右相同同的记录

LeftOutJoin(otherDataSet，numPartitions)：以左边表为准，逐条去右边表找相同字段，如果有多条会依次列出

RightOutJoin(otherDataSet, numPartitions)

lookup()：查询指定的key，u返回其对应的value。

filter()： filter 函数功能是对元素进行过滤，对每个元素应用 f 函数，返回值为 true 的元素在RDD 中保留，返回值为 false 的元素将被过滤掉。

full outer join（）包括两个表的join结果，左边在右边中没找到的结果（NULL），右边在左边没找到的结果，FULL OUTER JOIN 关键字结合了 LEFT JOIN 和 RIGHT JOIN 的结果。

collect()：函数可以提取出所有rdd里的数据项:RDD——>数组（collect用于将一个RDD转换成数组。）

reduce()：根据映射函数f，对RDD中的元素进行二元计算，返回计算结果。

count()：返回RDD内元素的个数

first()：返回RDD内的第一个元素，first相当于top（1）

top：top可返回最大的k个元素。

case：匹配，更多用于 PartialFunction(偏函数)中 {case …}

saveAsTextFile：函数将数据输出，存储到 HDFS 的指定目录

cache ： cache 将 RDD 元素从磁盘缓存到内存，内部默认会调用persist(StorageLevel.MEMORY_ONLY)，也就是说它无法自定义缓存级别的。

persist()：与cache一样都是将一个RDD进行缓存，在之后的使用过程汇总不需要重新的计算了。它比cache灵活，可以通过自定义
StorageLevel类型参数，来定义缓存的级别。

coalesce()：对RDD的分区进行分区，（用于分区数据分布不均匀的情况，利用HashPartitioner函数将数据重新分区）

reparation：与coalesce功能一样，它只是coalesce中shuffle设置为true的简易实现。（数据不经过shuffle是无法将RDD的分区变多的）

distinct()：distinct将RDD中的元素进行去重操作

subtract()：subtract相当于进行集合的差操作，RDD 1去除RDD 1和RDD 2交集中的所有元素。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark算子

pyspark-RDDSpark本地: Scala实例下面是我以前总结的一些常用的Spark算子以及Scala函数：map()：将原来 RDD 的每个数据项通过 map 中的用户自定义函数 f 映射转变为一个新的元素。mapPartitions(function) ：map()的输入函数是应用于RDD中每个元素，而mapPartitions()的输入函数是应用于每个分区。mapValue...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。