hive-列转行和行转列

最新推荐文章于 2025-09-23 16:47:43 发布

原创最新推荐文章于 2025-09-23 16:47:43 发布 · 8.8w 阅读

46 ·

CC 4.0 BY-SA版权

文章标签：

#hive #explode #collect_set #列转行和行转列 #concat_ws

大数据同时被 3 个专栏收录

29 篇文章

订阅专栏

hadoop

22 篇文章

订阅专栏

hive

12 篇文章

订阅专栏

本文详细介绍了如何使用Hive进行数据的行转列操作，包括合并不同表中的数据和拆分数据列，通过使用内置UDF如collect_set和concat_ws实现数据格式的灵活转换。同时，展示了如何利用UDTF explode()对数据进行拆分处理，以及在外部选择语句中正确使用explode()的方法。

1. 假设我们在hive中有两张表，其中一张表是存用户基本信息，另一张表是存用户的地址信息等，表数据假设如下：

user_basic_info:

id	name
1	a
2	b
3	c
4	d

user_address;

name	address
a	add1
a	add2
b	add3
c	add4
d	add5

我们可以看到同一个用户不止一个地址（这里是假设的），我们需要把数据变为如下格式：

id	name	address
1	a	add1,add2
2	b	add3
3	c	add4
4	d	add5

collect_set 这就用到了hive中的行转列的知识，需要用到两个内置UDF: collect_set, concat_ws,

两个函数解释如下见：http://www.cnblogs.com/end/archive/2012/06/18/2553682.html

建表:

create table user_basic_info(id string, name string);
create table user_address(name string, address string);

加载数据：

load data local inpath '/home/jthink/work/workspace/hive/row_col_tran/data1' into table user_basic_info;
load data local inpath '/home/jthink/work/workspace/hive/row_col_tran/data2' into table user_address;

执行合并：

select max(ubi.id), ubi.name, concat_ws(',', collect_set(ua.address)) as address from user_basic_info ubi join user_address ua on ubi.name=ua.name group by ubi.name;

运行结果：

1 a add1,add2
2 b add3
3 c add4
4 d add5

2. 假设我们有一张表：

user_info: