Spark-RDD编程之常见转换操作

最新推荐文章于 2024-05-21 15:54:05 发布

绣花针

最新推荐文章于 2024-05-21 15:54:05 发布

阅读量791

点赞数

分类专栏： Spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mmake1994/article/details/79786155

版权

Spark 专栏收录该内容

19 篇文章 0 订阅

订阅专栏

转换操作能够从已有的RDD得到新的RDD

一：一元转换操作

1：map

首先创建rdd1，其中含有整数1~9；对rdd1中的每个元素执行乘2操作，得到新的元素rdd2

scala>val rdd1=sc.parallelize(1 to 9 ,3)

scala>val rdd2=sc.rdd1.map(x >= x*2)

scala>rdd1.collect

scala>rdd2.collect

res0:Array[Int] = Array(1,2,3,4,5,6,7,8,9)

res1:Array[Int] = Array(2,4,6,8,10,12,14,16,18)

2：mapValues

mapValues适用于Key-Value对形式的RDD

scala>val rdd1=sc.parallelize(List("dog","tiger","lion","cat","panther","eagle"))

scala>val rdd2=rdd1.map(x >= (x.length,x)).collect

scala>rdd2.mapValues("x"+_+"x").collect

res1:Array[(Int,String)]=Array((3,xdogx),(5,xtigerx),(4,xlionx),(3,xcatx),(7,xpantherx),(5,xeaglex))

3:mapPartitons

mapPartitions是map的一个变形。map的输入函数是作用于RDD中的每个元素，而mapPartitions的输入函数是作用于每个分区

4：flatMap

flatMap与map类似，针对RDD中的每个元素，经过指定的函数（一对多映射）运算后生成若干个新元素，所有新元素构成新RDD

scala>val rdd1=sc.parallelize(1 to 4, 2)

scala>rdd1.flatMap(x => 1 to x).collect

res0:Array[Int] =Array(1,1,2,1,2,3,1,2,3,4)

5:flatMapValues

flatMapValues类似于mapValues，适用于Key-Value对形式的RDD。对于每个Key-Value对中的Value值进行指定的函数运算，但是不同之处在于每个Value值可能被映射为若干新值（不再是一对一映射），然后这些新值再与原Key组成一系列新的Key-Value对，所有新的Key-Value对构成新RDD

6：groupByKey

groupByKey针对Key-Value对形式的RDD，以Key值作为依据，对Value值进行分组

7：sortByKey

sortByKey针对Key-Value对形式的RDD，以Key值作为依据进行排序

8：reduceByKey

reduceByKey针对Key-Value形式的RDD，对具有相同的Key的Value进行指定的函数运算，再将计算结果与Key值组成一个新的Key-Value对，所有新的Key-Value对构成新的RDD

9：filter

filter针对RDD中的每一个元素进行指定的函数运算，对于返回值为true的元素，筛选出来作为新的RDD中的元素。需要注意，filter中函数参数的返回值类型必须是布尔型。

二：二元转换操作

1：union

union操作是将两个RDD中的元素进行合并，将结果封装成新的RDD，类似于两个集合的并运算（不会去重叠）

2：intersection

intersection操作接收另一个RDD作为参数，返回两个RDD中相同的元素并封装成新的RDD，相当于两个集合的交运算

3：subtract

subtract操作接收另一个RDD作为参数，返回由只存在于第一个RDD中而不存在于第二个RDD中的所有元素组成的新RDD，相当于两个集合的差运算

4：join

join针对Key-Value对形式的两个RDD进行连接操作，连接的依据是Key值，其功能与关系型数据库中表的内连接操作相同。类似地，Spark还提供了leftOuterJoin、rightOuterJoin等连接操作

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。