Pair RDD基本操作
虽然大部分Spark的RDD操作都支持所有种类的对象,但是有少部分特殊的操作只能作用于键值对类型的RDD。这类操作中最常见的就是分布的shuffle操作,比如将元素通过键来分组或聚集计算。在Python中,这类操作一般都会使用Python内建的元组类型,比如(1, 2)。生成的键值对的RDD称为PairRDD。
创建Pair RDD
有很多种创建键值对的方式,很多存储键值对的数据格式会在读取时直接返回由其键值对组成的pair RDD。此外当需要将一个普通的RDD转化为一个pair RDD时可以使用map函数来进行操作。
Pair RDD的转化操作
Pair RDD可以使用所有标准RDD上的可用的转化操作。由于pair RDD包含的是二元组,所以需要传递的函数应当操作二元组而不是独立的元素。当然如果传递的函数不是操作二元组的话,有异常报出。
标准转化操作示例:
Pair RDD有一些特有的转化操作如下:
!注意其中对Values进行操作接口所传递的函数参数是rdd中元组的值。
!这里还差一个combineByKey操作没有讲
针对两个pair RDD的转化操作: