scala spark数据去重实验

目标:读取文件数据,去重,排序输出
数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次

实验文件

file1.txt

2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c

file2.txt

2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c

代码实现:

/*
* 数据去重问题
* */
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.SparkSession

object distinct {
  Logger.getLogger("org").setLevel(Level.WARN)
  Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("distinct").master("local[*]")
      .config("spark.testing.memory", "2147480000")
      .getOrCreate()
    val inputFile = "D:\\bigdata\\learn01\\file*.txt"
    val rdd = spark.sparkContext.textFile(inputFile)

    val result = rdd.filter(_.trim().length()>0 ).map( line=>(line.trim,"") ).groupByKey()
      .sortByKey()
//        .keys //获取所有键
      .map(_._1)//获取第一个值
      .collect()
    result.foreach(println(_))

    spark.stop()
  }
}

实验结果:

2012-3-1 a
2012-3-1 b
2012-3-2 a
2012-3-2 b
2012-3-3 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-6 c
2012-3-7 c
2012-3-7 d

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值