hive sql - 如何选择 hive 数组列中的前 n 个元素并返回选定的数组

表数据如下:

user_id  interest_array
tom      [a,b,c,d,g,w]
bob      [e,d,s,d,g,w,s]
cat      [a]
harry    []
peter    NULL

目的是按顺序选择每行“interest_array”中的前 3 个元素并将其作为数组返回,输出如下:

user_id  output_array
tom      [a,b,c]
bob      [e,d,s]
cat      [a]
harry    []
peter    NULL
实现方式
1、简单的方法,但如果初始数组可以包含较少的元素(结果数组将包含NULL),它将无法正常工作。
with mydata as(
    select array('a','b','c','d','g','w') as original_array
    )
    select original_array, array(original_array[0], original_array[1], original_array[2]) as first_3_array
    from mydata

结果:

original_array              first_3_array
["a","b","c","d","g","w"]   ["a","b","c"]
2、另一种使用explode的方法,适用于任何数组:

使用poseexplode分解数组,过滤位置<=2,再次收集数组:

with mydata as(
select array('a','b','c','d','g','w') as original_array
)

select original_array, collect_list(e.element) as first_3_array
from mydata
     lateral view outer posexplode(original_array) e as pos, element
where pos<=2
group by original_array

结果:

original_array              first_3_array
["a","b","c","d","g","w"]   ["a","b","c"]
3、更高效的方法,不爆炸:用逗号分隔符连接数组,使用regexp提取最多3个第一个元素的子串,再次拆分:
with mydata as(
select array('a') as original_array
)

select original_array, split(regexp_replace(regexp_extract(concat_ws(',', original_array),
                                                           '^(([^,]*,?){1,3})',1),
                                            ',$','') --remove last delimiter
                             ,',') as first_3_array
from mydata 
  • 4
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

雾岛与鲸

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值