HiveSQL 解析Array/Array<struct>格式字段

HiveSQL如何展开Array/Array格式字段?使用LATERAL VIEW explode() 方法…

1、解析Array格式

列展开函数

EXPLODE(col):将hive一列中复杂的array或者map结构拆分成多行。
LATERAL VIEW:用法:LATERAL VIEW udtf(expression) tableAlias AS columnAlias
解释:用于和split, explode等UDTF一起使用,它能够将一列数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。也可以说是对数据的一种测写。

array行展开→explode


select count(distinct [table1.cc](http://table1.cc/) ) from
(select explode(cate) as cc from table2 where date = 20201120)table1;

array列展开统计各取值出现次数

select lx,count(*) from
(select cate from table2 where date = 20201122)t1
lateral view explode(t1.cate) cate as lx group by lx;

2、解析Array格式

先建个表

CREATE EXTERNAL TABLE IF NOT EXISTS SampleTable
(
USER_ID BIGINT,
NEW_ITEM ARRAY<STRUCT<PRODUCT_ID: BIGINT,TIMESTAMPS:STRING>>
)

表中的数据:

1015826235     [{"product_id":220003038067,"timestamps":"1340321132000"},{"product_id":300003861266,"timestamps":"1340271857000"}]

现在希望将Array展开,成为新的列,希望得到以下输出:

**USER_ID**  |  **PRODUCT_ID**  |   **TIMESTAMPS**
 ------------+------------------+----------------
1015826235      220003038067       1340321132000
1015826235      300003861266       1340271857000

只需要结合 LATERAL VIEW进行explode一次,explode后:

  • 将Array类型的NEW_ITEM结构体中的PRODUCT_ID 重命名product_id为作为一个新列
  • 将Array类型的NEW_ITEM结构体中的timestamps重命名product_id为作为一个新列为作为一个新列
  • 可以使用Hive 语句:
SELECT
   user_id,
   prod_and_ts.product_id as product_id,
   prod_and_ts.timestamps as timestamps
FROM 
   SampleTable 
   LATERAL VIEW explode(new_item) exploded_table as prod_and_ts;

如果您使用的是Hive 0.10或更高版本,则也可以使用inline(ARRAY<STRUCT[,STRUCT]>)。它将结构数组分解为表。

参考网页:

Explode the Array of Struct in Hive


我的博客

  • 2
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值