HiveSQL如何展开Array/Array格式字段?使用LATERAL VIEW explode() 方法…
1、解析Array格式
列展开函数
EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行。
LATERAL VIEW:用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解释:用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。也可以说是对数据的一种测写。
array行展开→explode
select count(distinct [table1.cc](http://table1.cc/) ) from
(select explode(cate) as cc from table2 where date = 20201120)table1;
array列展开统计各取值出现次数
select lx,count(*) from
(select cate from table2 where date = 20201122)t1
lateral view explode(t1.cate) cate as lx group by lx;
2、解析Array格式
先建个表
CREATE EXTERNAL TABLE IF NOT EXISTS SampleTable
(
USER_ID BIGINT,
NEW_ITEM ARRAY<STRUCT<PRODUCT_ID: BIGINT,TIMESTAMPS:STRING>>
)
表中的数据:
1015826235 [{"product_id":220003038067,"timestamps":"1340321132000"},{"product_id":300003861266,"timestamps":"1340271857000"}]
现在希望将Array展开,成为新的列,希望得到以下输出:
**USER_ID** | **PRODUCT_ID** | **TIMESTAMPS**
------------+------------------+----------------
1015826235 220003038067 1340321132000
1015826235 300003861266 1340271857000
只需要结合 LATERAL VIEW进行explode一次,explode后:
- 将Array类型的NEW_ITEM结构体中的PRODUCT_ID 重命名product_id为作为一个新列
- 将Array类型的NEW_ITEM结构体中的timestamps重命名product_id为作为一个新列为作为一个新列
- 可以使用Hive 语句:
SELECT
user_id,
prod_and_ts.product_id as product_id,
prod_and_ts.timestamps as timestamps
FROM
SampleTable
LATERAL VIEW explode(new_item) exploded_table as prod_and_ts;
如果您使用的是Hive 0.10或更高版本,则也可以使用inline(ARRAY<STRUCT[,STRUCT]>)。它将结构数组分解为表。
参考网页:
Explode the Array of Struct in Hive