首先还是先说下wm_concat的函数定义
wm_concat:通过id实现某个字段的拼接
举一个例子来更清楚的展示wm_concat的作用效果
例:
现有table: tmp
|id | name |
| 1 | yy |
| 1 | yw |
| 2 | tl |
| 3 | lo |
| 3 | ke |
oracle sql:
select id,wm_concat(name) namet from tmp group by id
结果:
|id | namet |
| 1 | yy,yw |
| 2 | tl |
| 3 | lo,ke |
这就是wm_concat()的大致作用所在,可是呢oracle官方倒是不建议使用wm_concat()。
知道了wm_concat()函数的作用那在hive中就懂得如何去实现了,
恰巧hive中刚好含有一个函数对应了wm_concat().
这个函数就是concat_set() 或者concat_list()
concat_set()会对结果去重
concat_list()不会去重
例:
现有table: tmp
|id | name |
| 1 | yy |
| 1 | yw |
| 2 | tl |
| 2 | tl |
| 3 | lo |
| 3 | ke |
hive sql
select id,concat_ws(',',collect_set(name)) namet from tmp group by id
结果:
|id | namet |
| 1 | yy,yw |
| 2 | tl |
| 3 | lo,ke |
hive sql
select id,concat_ws(',',collect_list(name)) namet from tmp group by id
结果:
|id | namet |
| 1 | yy,yw |
| 2 | tl,tl |
| 3 | lo,ke |
其实呢,无论是wm_concat()还是collect_set() or collect_list()的目的都是将同一个id下的name处理成一行显示而已。