Spark框架—RDD算式mapPartitionsWithIndex与filter的用法

最新推荐文章于 2023-05-12 23:17:30 发布

晚风时亦鹿

最新推荐文章于 2023-05-12 23:17:30 发布

阅读量1.8k

点赞数 4

分类专栏： Spark-Scala 文章标签： hive hadoop spark

本文链接：https://blog.csdn.net/m0_62491934/article/details/123781896

版权

Spark-Scala 专栏收录该内容

11 篇文章 5 订阅

订阅专栏

在这里插入图片描述

@junit.Test
  def mapPartitionsWithIndex(): Unit ={
    sc.parallelize(Seq(1,2,3,4,5,6),2)
      .mapPartitionsWithIndex((index,iter) =>{
        println("index:"+index)
        iter.foreach(item=>println(item))
        iter
      })
      .collect()
  }
  @junit.Test
  def map1(): Unit ={
    sc.parallelize(Seq(1,2,3,4,5,6),2)
      .mapPartitionsWithIndex((index,iter)=>{
          println("index:"+index)
        iter.map(item=> item *10)
        iter.foreach(item => println(item))
        iter
      })
      .collect()
  }
  @junit.Test
  //1.定义集合
  //2.过滤数据
  //3.收集结果
  def filter(): Unit ={ //filter相当于if结构
    sc.parallelize(Seq(1,2,3,4,5,6,7,8,9,10))
      .filter(item => item % 2==0)
      .collect()
      .foreach(item => println(item))

  }
}

在这里插入图片描述

优惠劵

晚风时亦鹿

关注关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
2
评论
Spark框架—RDD算式mapPartitionsWithIndex与filter的用法

@junit.Test def mapPartitionsWithIndex(): Unit ={ sc.parallelize(Seq(1,2,3,4,5,6),2) .mapPartitionsWithIndex((index,iter) =>{ println("index:"+index) iter.foreach(item=>println(item)) iter }) .collect(.
复制链接

扫一扫