distinct（）去重

最新推荐文章于 2024-07-30 08:00:00 发布

huchao7

最新推荐文章于 2024-07-30 08:00:00 发布

阅读量625

点赞数

分类专栏：笔记文章标签： scala spark big data

本文链接：https://blog.csdn.net/Huc673619/article/details/121034733

版权

笔记专栏收录该内容

90 篇文章 0 订阅

订阅专栏

distinct算子

1）函数签名

def distinct():RDD[T] //默认情况下，distinct会生成与原RDD分区个数一致的分区数

2）功能说明：对内部的元素去重，并将去重后的元素放到新的RDD中。

3）源码解析：

4）函数签名：

def distinct(numPartitions:Int)(implicit ord:Ordering[T]=null):RDD[T]
//可以去重后修改分区个数

代码实现

package com.huc.Spark.value

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Test10_distinct {
  def main(args: Array[String]): Unit = {

    //1.创建SparkConf并设置App名称
    val conf: SparkConf = new SparkConf().setAppName("SparkCore").setMaster("local[*]")

    //2.创建SparkContext，该对象是提交Spark App的入口
    val sc: SparkContext = new SparkContext(conf)

    //3.使用Scala进行spark编程
    // 创建一个RDD
    val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 1, 3))

    // 打印去重后生成的新的rdd
//    rdd.distinct().collect().foreach(println)
//    println(rdd.distinct().collect().mkString(","))

    // 对RDD采用多个Task去重，提高并发度
    println(rdd.distinct(2).collect().mkString(","))

    //4.关闭连接
    sc.stop()

  }
}