spark去重优化

在spark的任务中,用的较多的去重方法是dataframe的distinct,笔者在测试中发现这种方法其实很次的,尤其是在大量数据的去重的过程中。

测试数据的数据结构如下,主要是userid,其他字段随意。

userid:String, column1:String

数据大小
在这里插入图片描述

方法一,使用dataframe的distinct去重:

df.selectExpr($"userid").distinct()

这种方法是最简单而且个人认为效率是最次的,当时测试了16260037条数据,对用户id去重,其实去重后的userid也就27个,即使是分布式执行任务,去重这步也花了20分钟左右。

方法二,然后笔者脑回路清奇,尝试使用groupByKey去重:

    val users = df.rdd.map(row =>{
      (row.getAs("userid").toString, 1)
    }).groupByKey().map(line =>{
      (line._1, line._2.sum)
    }).collect()

拿到的是是一个Array[(String, Int)],速度稍微好一点,但也就那样吧。

方法三,还是脑回路清奇,想到dataframe.collect().distinct.toList

val users = df.selectExpr("userid").collect().distinct.toList

这是先吧userid这一列用collect()转成数组,类型为Array[Row],再使用distinct去重,最后根据个人喜好 业务需求将Array[Row]转成List[Row]。
这个去重速度是最快的,也就几分钟的事。

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
Spark中,有多种方法可以用于去数据。以下是几种常见的方法: 1. 使用`distinct`函数:可以直接使用DataFrame或Dataset的`distinct`函数来去数据。这个函数会返回一个新的DataFrame或Dataset,其中包含去后的数据。 2. 使用`dropDuplicates`函数:可以使用DataFrame或Dataset的`dropDuplicates`函数来去数据。这个函数可以指定需要去的列,也可以不指定,默认会对所有列进行去。 3. 使用窗口函数`row_number() over()`:可以使用窗口函数`row_number() over()`来给每一行数据添加一个序号,然后根据序号进行去。这个方法适用于需要保留每个分组中的某个特定行的情况。 4. 使用`groupByKey`和`map`:可以使用RDD的`groupByKey`函数将数据按照指定的键进行分组,然后使用`map`函数对每个分组进行处理,去除复的键值对。这个方法适用于需要自定义去逻辑的情况。 需要注意的是,不同的方法适用于不同的场景和数据规模。在选择方法时,需要考虑数据量大小、性能要求以及去的精确度等因素。 #### 引用[.reference_title] - *1* *3* [spark5种去方式,快速去](https://blog.csdn.net/qq_39285950/article/details/128511833)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [spark优化](https://blog.csdn.net/luohaifang/article/details/109819183)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值