spark sql dropDuplicates distinct

最新推荐文章于 2024-03-28 21:31:19 发布

dataastron

最新推荐文章于 2024-03-28 21:31:19 发布

阅读量6.1k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/dataastron/article/details/80182926

版权

Spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏


object TypedOperation {

  case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long)
  def main(args: Array[String]): Unit = {
    println("astron")
    val spark = SparkSession
      .builder()
      .master("local")
      .appName("star")
      .getOrCreate()
    import spark.implicits._
    // DF->DS
    val demoDf = spark.read.json("d://employee.json")
    println(demoDf)
    //demoDf.printSchema()
    val demoDs = demoDf.as[Employee]

    demoDs.show()
    val distinctDemoDs = demoDs.distinct();
    distinctDemoDs.show()
    val dropDuplicatesDemoDs = demoDs.dropDuplicates(Seq("name"))
    dropDuplicatesDemoDs.show()

  }

}

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dataastron

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark sql dropDuplicates distinct

object TypedOperation { case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long) def main(args: Array[String]): Unit = { println("astron") val spark = Spar...
复制链接

扫一扫