spark选择去重

最新推荐文章于 2024-07-22 21:51:13 发布

lvtula

最新推荐文章于 2024-07-22 21:51:13 发布

阅读量4.3k

点赞数 1

分类专栏： Spark 文章标签： Spark

Spark 专栏收录该内容

27 篇文章 2 订阅

订阅专栏

在spark计算当中，我们日常有些简单需求，比如去重，比如有四列（appid、date、type、platform），我们只需要对appid，date进行去重，另外两列不关注。在spark中，distinct会对所有列执行去重操作，两行比较，只要有个一列有差异，就不算重复。

要解决，只对某几列进行去重，可以使用Top N 的思路，也就是先分组，分组后，我们只取row_num=1第一行就可以了。

具体实现代码如下：

//选出某几列，去掉空值
Dataset<Row> dataset = input.select(
Consts.Fields.APPID,
Consts.Fields.EXT$ADID
).na().drop(dropNulCol);
dataset.persist();
//设置窗口计算，可以指定多个列为partitionBy,其实就是多个groupby 分组列
WindowSpec w=Window.partitionBy(Consts.Fields.APPID).orderBy(col("count").desc());
//只取row num=1，那就是top N,如果window里有orderby排序的话。
Dataset<Row> top = count.withColumn("rn",row_number().over(w)).where(col("rn").$eq$eq$eq(1)).drop("rn");

------------------------------------------------------------------------------------------------------------------