文章目录
前面有比较基础的列转行与行转列的介绍: https://editor.csdn.net/md/?articleId=128578075
一、列转行
引用例子1:
原数据:
转化后:
explode()函数:
在hive中存在explode
函数,该函数的作用就是将某一列中比较复杂的数据类型(array、map)拆分成多行数据。
语法:
explode(col)
注:col的数据类型为array等比较复杂的数据类型
案例:
select(array('1','2','3')) --将array中的数据进行拆分,每个元素占用一行
结果:
1
2
3
explode为hive中的UDTF函数,select使用UDTF做查询的过程中查询字段只能包含单个UDTF
,不能包含其他的字段
,同时更加不能有多个UDTF函数
,为了解决这种缺陷,explode经常和lateral view 进行连用
。
语法:
lateral view udtf(expression) tableAlias as columnAlias
--lateral view在UDTF前使用,表示连接UDTF所分裂的字段。
--UDTF(expression):使用的UDTF函数,例如explode()。
--tableAlias:表示UDTF函数转换的虚拟表的名称。
--columnAlias:表示虚拟表的虚拟字段名称,如果分裂之后有一个列,则写一个即可;如果分裂之后有多个列,按照列的顺序在括号中声明所有虚拟列名,以逗号隔开。
注意:
1)lateral view的位置是from后where条件前
2)生成的虚拟表的表名不可省略
3)from后可带多个lateral view
3)如果要拆分的字段有null值,需要使用lateral view outer 替代,避免数据缺失
lateral view explode()将字段拆分之后形成一张虚表,该虚表可以与原表进行关联,从而输出除explode()拆分字段外的其他字段
如上述例子的具体sql如下:
例一:
引用例子1的实现代码如下:
select movie,category_name
from movies
lateral view explode(category) table_tmp as