Spark开发-transformations操作

最新推荐文章于 2019-04-02 23:26:47 发布

VIP文章 Xlucas

最新推荐文章于 2019-04-02 23:26:47 发布

阅读量460

点赞数

分类专栏： spark 文章标签： spark 转换RDD

本文链接：https://blog.csdn.net/paicMis/article/details/78059500

版权

核心
transformations操作
map(func)
返回一个新的RDD，这个函数的主要功能是对所有元素进行参数上的操作
对每一条输入进行指定的操作，然后为每一条输入返回一个对象
例如 val rdd1=sc.parallelize(Array(1,2,3,4)).map(x=>2*x).collect
这个是对数据 1,2,3,4进行map操作，里面的函数是2*x就是每个元素都乘以2返回
返回结果是 rdd1: Array[Int] = Array(2, 4, 6, 8)

filter(func)
返回一个新的RDD，这个函数的主要功能是对元素进行过滤获取符合条件的元素
例如 val rdd1=sc.parallelize(Array(1,2,3,4)).filter(x=>x>1).collect
这个是对数组1,2,3,4进行filter操作，将符合大于1的元素返回
rdd1: Array[Int] = Array(2, 3, 4)

flatMap(func)
返回一个新的RDD，这个参数是函数，类似map的操作
和map不一样的地方是最后将所有对象合并为一个对象

案例：

scala> val data =Array(Array(1, 2, 3, 4, 5),Array(4,5,6))
data: Array[Array[Int]] = Array(Array(1, 2, 3, 4, 5), Array(4, 5, 6))
scala> val rdd1=sc.parallelize(data)
rdd1: org.apache.spark.rdd.RDD[Array[Int]] = ParallelCollectionRDD[4] at parallelize at <console>:29
scala> val rdd2=rdd1.flatMap(x=>x.map(y=>y))
rdd2: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[5] at flatMap at <console>:31
scala> rdd2.collect
res0: Array[Int] = Array(1, 2, 3, 4, 5, 4, 5, 6)

mapPartitions(func)
与map方法类似，map是对rdd中的每一个元素进行操作，而mapPartitions(foreachPartition)则是对rdd中的每个分区的迭代器进行操作。
如果在map过程中需要频繁创建额外的对象(例如将rdd中的数据通过jdbc写入数据库,map需要为每个元素创建一个链接而mapPartition为每个partition创建一个链接),则mapPartitions效率比map高的多。

val a = sc.parallelize(1 to 9, 3)
  def doubleFunc(iter: Iterator[Int]) : Iterator[(Int,Int)] = {
    var res = List[(Int,Int)]()
    while (iter.hasNext)
    {
      val cur = iter.next;
      res .::= (cur,cur*2)
    }
    res.iterator
  }
val result = a.mapPartitions(doubleFunc)
println(result.collect().mkString)

结果：(3,6)(2,4)(1,2)(6,12)(5,10)(4,8)(9,18)(8,16)(7,

最低0.47元/天解锁文章

Xlucas

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark开发-transformations操作

核心 transformations操作 map(func) 返回一个新的RDD，这个函数的主要功能是对所有元素进行参数上的操作对每一条输入进行指定的操作，然后为每一条输入返回一个对象例如 val rdd1=sc.parallelize(Array(1,2,3,4)).map(x=>2*x).collect 这个是对数据 1,2,3,4进行map操作，里面的函数是2*x就是每个元素都
复制链接

扫一扫