spark选择去重

最新推荐文章于 2023-04-25 21:43:24 发布

Accelerating

最新推荐文章于 2023-04-25 21:43:24 发布

阅读量1.1k

点赞数

分类专栏： Spark 文章标签： spark

原文链接：https://blog.csdn.net/lvtula/article/details/93851185?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522163054375716780255298013%2522%252C%2522scm%2522%253A%252220140713.130102334.pc%255Fblog.%2522%257D&request_id=163054375716780255298013&biz_id=0&u

版权

Spark 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

在spark计算当中，我们日常有些简单需求，比如去重，比如有四列（appid、date、type、platform），我们只需要对appid，date进行去重，另外两列不关注。在spark中，distinct会对所有列执行去重操作，两行比较，只要有个一列有差异，就不算重复。

    要解决，只对某几列进行去重，可以使用Top N 的思路，也就是先分组，分组后，我们只取row_num=1第一行就可以了。

具体实现代码如下：

//选出某几列，去掉空值
Dataset dataset = input.select(
Consts.Fields.APPID,
Consts.Fields.EXT $ADID ).na().drop(dropNulCol); dataset.persist(); //设置窗口计算，可以指定多个列为partitionBy,其实就是多个groupby 分组列 WindowSpec w=Window.partitionBy(Consts.Fields.APPID).orderBy(col("count").desc()); //只取row num=1，那就是top N,如果window里有orderby排序的话。 Dataset<Row> top = count.withColumn("rn",row_number().over(w)).where(col("rn").$ eq $e q$ eq(1)).drop(“rn”);

在这里插入图片描述

Accelerating

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
spark选择去重

在spark计算当中，我们日常有些简单需求，比如去重，比如有四列（appid、date、type、platform），我们只需要对appid，date进行去重，另外两列不关注。在spark中，distinct会对所有列执行去重操作，两行比较，只要有个一列有差异，就不算重复。要解决，只对某几列进行去重，可以使用Top N 的思路，也就是先分组，分组后，我们只取row_num=1第一行就可以了。具体实现代码如下：//选出某几列，去掉空值Dataset dataset = input.selec
复制链接

扫一扫