rdd基本操作

最新推荐文章于 2021-12-13 23:30:04 发布

克莱恩瑞德

最新推荐文章于 2021-12-13 23:30:04 发布

阅读量430

点赞数

分类专栏： learning

原文链接：https://blog.csdn.net/qq_41455420/article/details/79462653

版权

learning 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

rdd基本操作

为该内容的学习记录。
https://blog.csdn.net/qq_41455420/article/details/79462653
这里是我自己的理解加上不懂得地方珈乐自己能理解的方式的解释，推荐看原作者。
代码片中，scala>开头的是输入的代码，res的为结果

1、spark启动

spark-shell

2、生成一个rdd

val a = sc.parallelize(1 to 9, 3)
# 创建一个a，内容是123456789，分成三个分区
#查看a：
	a.collect
#按分区查看a：
	a.glom().collect

3、map

scala> val a = sc.parallelize(1 to 9, 3)
scala> val b = a.map(x => x*2)
scala> a.collect
res10: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
scala> b.collect
res11: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

map是对RDD中的每个元素都执行一个指定的函数来产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。

3、filter

scala>val rdd = sc.parallelize(List(1,2,3,4,5,6))  
scala>val filterRdd = rdd.filter(_ > 5)
scala>filterRdd.collect() 
res11: Array[Int] = Array(6)

filter 是对RDD中的每个元素都执行一个指定的函数来过滤产生一个新的RDD。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应。（相当于select）

4、flatMap

举例：对原RDD中的每个元素x产生y个元素（从1到y，y为元素x的值）

scala> val a = sc.parallelize(1 to 4, 2)
scala> val b = a.flatMap(x => 1 to x)
scala> b.collect
res12: Array[Int] = Array(1, 1, 2, 1, 2, 3, 1, 2, 3, 4)
scala> b.glom().collect
res12: Array[Array[Int]] = Array(Array(1, 1, 2), Array(1, 2, 3, 1, 2, 3, 4))

与map类似，区别是原RDD中的元素经map处理后只能生成一个元素，而原RDD中的元素经flatmap处理后可生成多个元素来构建新RDD。

5、mapPartitions

scala> val a = sc.parallelize(1 to 9, 3)
scala> def myfunc[T](iter: Iterator[T]) : Iterator[(T, T)] = {
  var res = List[(T, T)]() 
  var pre = iter.next 
while (iter.hasNext) {
    val cur = iter.next
    res.::=(pre, cur)
      pre = cur  } 
  res.iterator
}
scala> a.mapPartitions(myfunc).collect
res0: Array[(Int, Int)] = Array((2,3), (1,2), (5,6), (4,5), (8,9), (7,8))

上述例子中的函数myfunc是把分区中一个元素和它的下一个元素组成一个Tuple。因为分区中最后一个元素没有下一个元素了，所以(3,4)和(6,7)不在结果中。
a的分区3个，分别是123、456、789，所以是12、23|45、56|78、89)
mapPartitions还有些变种，比如mapPartitionsWithContext，它能把处理过程中的一些状态信息传递给用户指定的输入函数。还有mapPartitionsWithIndex，它能把分区的index传递给用户指定的输入函数。

6、mapPartitionsWithIndex

var rdd1 = sc.makeRDD(1 to 5,2)
//rdd1有两个分区
var rdd2 = rdd1.mapPartitionsWithIndex{
        (x,iter) => {
          var result = List[String]()
          //如果有下一个元素，就加到i上，到没有为止，即功能为：将每个分区的元素累加。
            var i = 0
            while(iter.hasNext){
              i += iter.next()
            }
            result.::(x + "|" + i).iterator
        }
      }
//rdd2将rdd1中每个分区的数字累加，并在每个分区的累加结果前面加了分区索引
scala> rdd2.collect
res13: Array[String] = Array(0|3, 1|12)

def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]
函数作用同mapPartitions，不过提供了两个参数，第一个参数为分区的索引。

7、coalesce

scala> var data = sc.parallelize(1 to 12, 3) 
scala> data.collect 
scala> data.partitions.size 
scala> var rdd1 = data.coalesce(1) 
scala> rdd1.partitions.size 
scala> var rdd1 = data.coalesce(4) 
scala> rdd1.partitions.size
res2: Int = 1   //如果重分区的数目大于原来的分区数，那么必须指定shuffle参数为true，//否则，分区数不便
scala> var rdd1 = data.coalesce(4,true) 
scala> rdd1.partitions.size
res3: Int = 4

克莱恩瑞德

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
rdd基本操作

rdd基本操作为该内容的学习记录。https://blog.csdn.net/qq_41455420/article/details/79462653代码片中，scala>开头的是输入的代码，res的为结果1、spark启动spark-shell2、生成一个rddval a = sc.parallelize(1 to 9, 3)# 创建一个a，内容是123456789，分成三个分区#查看a： a.collect#按分区查看a： a.glom().collect3、maps
复制链接

扫一扫