collect_set:使用频率 ★★★★★
将分组内的数据放入到一个集合中,具有去重的功能;
1 --统计每个用户具体哪些天访问过
2 select
3 user_id,
4 collect_set(visit_date) over(partition by user_id) as visit_date_set
5 from wedw_tmp.tmp_url_info
collect_list:使用频率 ★★★★★
和collect_set一样,但是没有去重功能
1 select
2 user_id,
3 collect_set(visit_date) over(partition by user_id) as visit_date_set
4 from wedw_tmp.tmp_url_info
5
6 --如下图可见,user2在2020-05-15号多次访问,这里也算进去了
sort_array:使用频率 ★★★
数组内排序;通常结合collect_set或者collect_list使用;
如collect_list为例子