Pair RDD基本操作

Pair RDD基本操作

虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最常见的就是分布的shuffle操作,比如将元素通过键来分组或聚集计算。在Python中,这类操作一般都会使用Python内建的元组类型,比如(1, 2)。生成的键值对的RDD称为PairRDD。

创建Pair RDD

有很多种创建键值对的方式,很多存储键值对的数据格式会在读取时直接返回由其键值对组成的pair RDD。此外当需要将一个普通的RDD转化为一个pair RDD时可以使用map函数来进行操作。

这里写图片描述

Pair RDD的转化操作

Pair RDD可以使用所有标准RDD上的可用的转化操作。由于pair RDD包含的是二元组,所以需要传递的函数应当操作二元组而不是独立的元素。当然如果传递的函数不是操作二元组的话,有异常报出。

这里写图片描述

标准转化操作示例:
这里写图片描述

Pair RDD有一些特有的转化操作如下:

这里写图片描述

!注意其中对Values进行操作接口所传递的函数参数是rdd中元组的值。
!这里还差一个combineByKey操作没有讲

针对两个pair RDD的转化操作:

这里写图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值