【Spark】键值对操作,pair RDD的转化操作

一、Pair RDD 键值对的创建

       Spark为包含键值对类型的RDD提供了一些专有的操作。这些RDD被成为pair RDD。pair RDD是很多程序的构成要素,因为它提供了并行操作各个键或跨节点重新进行数据分组的操作接口。例如,pair RDD提供reduceByKey() 方法,可以分别归约每个键对应的数据,还有join()方法,可以把两个RDD中键相同的元素组合到一起,合并为一个RDD。我们通常从一个RDD中提取某些字段(例如代表事件时间、用户ID或其他标识符的字段),并使用这些字段作为pair RDD操作中的键。

      在spark中有很多种创建pair RDD的方式。存储键值对的数据格式会在读取时直接返回由其键值对数据组成的pair RDD。此外,当需要把一个普通的RDD转化为pair RDD时,可以调用map()函数来实现,传递的函数需要返回键值对。

      构建键值对RDD的方法在不同的语言中会有所不同。以下用scala做示例。在scala中,为了让提取键之后的数据能够在函数中使用,需要返回二元组。

例子1: 把string的RDD转化为pair RDD。首先构造string的RDD,再用map函数,把每个单词作为key,值为1;

val rdd = sc.parallelize(List("panda", "pink", "private"))
val pairs = rdd.map(x => (x, 1))
pairs.collect().foreach(println)

(panda,1)
(pink,1)
(private,1)

例子2: 直接用parallelize构造pair RDD;

val rdd = sc.parallelize(List((1, 2), (3, 4), (3, 6)))
rdd.collect().foreach(println)
(1,2)
(3,4)
(3,6)

二、Pair RDD的转化操作概述

1、单个Pair RDD转化操作

      Pair RDD可以使用所有标准RDD上的可用的转化操作。标准RDD有关传递函数的规则也同样使用于pair RDD。由于pair RDD中包含二元组,所以需要传递的函数应当操作二元组而不是独立的元素。

      pair RDD的转化操作,以键值对集合 {(1, 2), (3, 4), (3, 6)} 为例子

val rdd = sc.parallelize(List((1, 2), (3, 4), (3, 6)))

2、两个pair RDD的转化操作

      针对两个pair RDD的转化操作 (rdd = {(1, 2), (3, 4), (3, 6)}, other = {(3, 9)})

val rdd = sc.parallelize(List((1, 2), (3, 4), (3, 6)))
val other = sc.parallelize(List((3, 9)))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值