impala实现类似hive的explode 函数的功能

最新推荐文章于 2023-08-07 09:41:37 发布

summer089089

最新推荐文章于 2023-08-07 09:41:37 发布

阅读量1.8k

点赞数 2

分类专栏： impala 文章标签：数据仓库 impala hive

本文链接：https://blog.csdn.net/summer089089/article/details/125191246

版权

impala 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.问题原因

查询kudu库的数据是基于impala查询的，有一列的数据是a;b;c这样的数据，需要转化的多行。
将数据导入hive，用explode函数效率比较低

2.问题解决

利用 cross join 实现笛卡尔集，然后过滤掉多余的数据。可以实现需求

3.具体操作

with A as (select 'row 1' as key, 'a;b;c' as value
           union all
           select 'row 2' as key, 'd;e'   as value
           union all
           select 'row 3' as key, 'f'     as value),
     B as (select *, length(value) - length(regexp_replace(value,';','')) + 1 as n from A),
     -- assuming you have at lest as many rows as different values in a single row
     C as (select row_number() over(order by key) as seq, n from B), 
     D as (select seq from C where seq <= (select max(n) from C))
select key, value, split_part(value,';',seq) as part
  from B
 cross join D
 where seq <= n
 order by key,seq

A表原始数据
B表数据，主要是为了求出对应的value值，有几个元素
C表加上D表主要是为了1到最大元素个数的一个序列。不这样生成也行，直接通过union all也可以

在这里插入图片描述

最后结果通过 cross join 联合去除各个元素的数据，过滤掉 seq <= n 取不到的数据

在这里插入图片描述

summer089089

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
impala实现类似hive的explode 函数的功能

查询kudu库的数据是基于impala查询的，有一列的数据是a;b;c这样的数据，需要转化的多行。将数据导入hive，用explode函数效率比较低利用 cross join 实现笛卡尔集，然后过滤掉多余的数据。可以实现需求A表原始数据B表数据，主要是为了求出对应的value值，有几个元素C表加上D表主要是为了1到最大元素个数的一个序列。不这样生成也行，直接通过union all也可以...
复制链接

扫一扫