spark 笔记

最新推荐文章于 2022-12-01 18:53:30 发布

qq_19917081

最新推荐文章于 2022-12-01 18:53:30 发布

阅读量505

点赞数 1

分类专栏： spark 文章标签： spark

spark 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

初学spark的时候看到各种map mappartition foreach foreachpartition ，感觉会头晕，自己整理一下，以后记不清的时候可以来看下

首先理解partition的概念，一个partition在spark中就是一个rdd的分区，凡是带有partition的方法，都是对分区进行操作，不带的就是对整个rdd操作，一个分区的数据和处理都是在一个executor中完成的，这样就可以给一个分区定义共享变量，而对整个rdd定义共享变量就需要广播变量了，最常见的就是forearchpartition中建立数据库连接，一个partition共享连接，还有重要的一点就是partition中传入的参数是整个partition数据的迭代器。

具体的怎么写，不被绕进去，下面是找的例子

map()

val a = sc.parallelize(1 to 9, 3)
val b = a.map(x => x*2)//x => x*2是一个函数，x是传入参数即RDD的每个元素，x*2是返回值
a.collect
//结果Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9)
b.collect
//结果Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18)

mapPartitions

package test

import scala.Iterator

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext

object TestRdd {
  def sumOfEveryPartition(input: Iterator[Int]): Int = {
    var total = 0
    input.foreach { elem =>
      total += elem
    }
    total
  }
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("Spark Rdd Test")
    val spark = new SparkContext(conf)
    val input = spark.parallelize(List(1, 2, 3, 4, 5, 6), 2)//RDD有6个元素，分成2个partition
    val result = input.mapPartitions(
      partition => Iterator(sumOfEveryPartition(partition)))//partition是传入的参数，是个list，要求返回也是list，即Iterator(sumOfEveryPartition(partition))
    result.collect().foreach {
      println(_)//6 15
    }
    spark.stop()
  }
}

mapValues(function)
原RDD中的Key保持不变，与新的Value一起组成新的RDD中的元素。因此，该函数只适用于元素为KV对的RDD。

val a = sc.parallelize(List("dog", "tiger", "lion", "cat", "panther", " eagle"), 2)
val b = a.map(x => (x.length, x))
b.mapValues("x" + _ + "x").collect

//”x” + _ + “x”等同于everyInput =>”x” + everyInput + “x”
//结果
Array(
(3,xdogx),
(5,xtigerx),
(4,xlionx),
(3,xcatx),
(7,xpantherx),
(5,xeaglex)
)

flatMap(function)
与map类似，区别是原RDD中的元素经map处理后只能生成一个元素，而原RDD中的元素经flatmap处理后可生成多个元素

———————————分界线—————————-

foreach与foreachPartition都是在每个partition中对iterator进行操作,
不同的是,foreach是直接在每个partition中直接对iterator执行foreach操作,而传入的function只是在foreach内部使用,
而foreachPartition是在每个partition中把iterator给传入的function,让function自己对iterator进行处理.
也就是说，forearch和foreachPartition的参数不一样，与map和mappartition同理

val list = new ArrayBuffer()
Rdd.foreach(record => {
  list += record
  If (list.size >= 10000) {
    list.flush....
  }
})

Val list = new ArrayBuffer
rdd.foreachPartition(it => {
  It.foreach(r => {
List += r
If (list.size > 10000) flush
  })
  If (list.size > 0) flush
})

qq_19917081

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark 笔记

初学spark的时候看到各种map mappartition foreach foreachpartition ，感觉会头晕，自己整理一下，以后记不清的时候可以来看下首先理解partition的概念，一个partition在spark中就是一个rdd的分区，凡是带有partition的方法，都是对分区进行操作，不带的就是对整个rdd操作，一个分区的数据和处理都是在一个executor中完成的，这样
复制链接

扫一扫