concat_ws常和collect_set和group by结合起来一起用
collect_set去除重复元素;collect_list不去除重复元素
collect_set(col)函数只接受基本数据类型,它的主要作用是将某字段的值进行去重汇总,产生array类型字段
hive中常存在先通过group by对一字段去重后,还需要对另一字段也去重,这时候就需要collect_set()
stu表
ID | course |
---|---|
1 | english |
2 | math |
1 | english |
1 | music |
select
ID,
COALESCE(concat_ws(',',collect_set(course)))course_name
FROM stu
Group by ID;
执行结果为
id | course_name |
---|---|
1 | english,music |
2 | math |