spark实现用窗口函数进行去重计数的功能

最新推荐文章于 2024-06-05 02:19:59 发布

Alex.liu

最新推荐文章于 2024-06-05 02:19:59 发布

阅读量2.3k

点赞数

分类专栏： Spark 文章标签：窗口函数去重计数

本文链接：https://blog.csdn.net/longwei92/article/details/93879581

版权

Spark 专栏收录该内容

7 篇文章 1 订阅

订阅专栏

//collect_set去除重复元素；collect_list不去除重复元素
df.withColumn(
   "new_col_name",
   size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name")))
)
//同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Alex.liu

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
spark实现用窗口函数进行去重计数的功能

df.withColumn("new_col_name", size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name"))))//同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能...
复制链接

扫一扫