spark-mapPartitions练习

最新推荐文章于 2024-08-03 08:30:36 发布

LittleCookie_

最新推荐文章于 2024-08-03 08:30:36 发布

阅读量210

点赞数

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/czw0919/article/details/117688851

版权

spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

需求:获取每个分区的最大值

package com.atguigu.bigdata.spark.core.operator.transform.test

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object RDD_mapPartitions_02 {
  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[*]").setAppName("Operator")
    val sc = new SparkContext(sparkConf)

    // TODO 算子 -mapPartitions - 将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤数据
    //  需求:获取每个分区的最大值
    val rdd = sc.makeRDD(List(1, 2, 3, 4), 2)
    //  分析
    //  第一个分区[1,2]  第二个分区[3,4]
    //  [2],[4]

    val mapRDD: RDD[Int] = rdd.mapPartitions(
      iter => {
        // iter 是每一个分区的数据然后.max取整一个分区的最大值，但是返回值必须是迭代器，所以使用List包裹加.iterator
        List(iter.max).iterator
      }
    )


    mapRDD.collect().foreach(println)

    sc.stop()

  }
}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

LittleCookie_

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark-mapPartitions练习

需求:获取每个分区的最大值package com.atguigu.bigdata.spark.core.operator.transform.testimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object RDD_mapPartitions_02 { def main(args: Array[String]): Unit = { val sparkConf = ne
复制链接

扫一扫