spark的去重算子

最新推荐文章于 2023-05-04 09:10:41 发布

Drgom

最新推荐文章于 2023-05-04 09:10:41 发布

阅读量755

点赞数

分类专栏： Spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_43662627/article/details/117606588

版权

本文探讨了Spark实现数据去重的底层原理，主要涉及无参和有参的distinct操作。首先调用无参distinct，然后通过有参distinct进行匹配，将数据转化为(key, 1)对，最终合并并取key，形成不重复的iterator集合。" 38292531,3194415,RHEL 5：配置基于虚拟用户的FTP服务,"['Linux系统管理', '网络服务', 'FTP服务器', '安全配置']

摘要由CSDN通过智能技术生成

import org.apache.spark.{
   SparkConf, SparkContext}

object Test6 {
   

  def main(args: Array[String]): Unit = {
   
    val sparkconf = new SparkConf().setMaster("local[*]").setAppName("wordcount")
    val sc =new SparkContext(sparkconf)
    val rdd= sc.parallelize(List(1,2,5,7,8,9,3,4,4,5),