//collect_set去除重复元素;collect_list不去除重复元素
df.withColumn(
"new_col_name",
size(collect_set($"need_count_col_name").over(Window.partitionBy($"window_col_name")))
)
//同理在hive中也可以采用这种利用size和collect_set的形式实现用窗口函数进行去重计数的功能
spark实现用窗口函数进行去重计数的功能
最新推荐文章于 2024-06-05 02:19:59 发布