hive补全连续或非连续空值数据sql

目录

一、背景

二、测试数据准备

三、实现 


一、背景

爬虫或业务场景运行中经常会出现丢数据的情况,可能随机丢一分钟,或者丢几十分钟,完全没有规律,如果想用上一个有效值来补全的话单纯用lag函数无法实现

二、测试数据准备

create table test(
group_id string,
times bigint,
cnt bigint
)comment '测试'
stored as textfile;



insert into test values('a',1,null);
insert into test values('a',2,10);
insert into test values('a',3,20);
insert into test values('a',4,null);
insert into test values('a',5,null);
insert into test values('a',6,30);

三、实现 

select
     t1.group_id
    ,t1.times
    ,t1.cnt        as ori_cnt  --原始值
    ,nvl(t2.cnt,0) as cnt      --补全后值
from (
    select
         group_id
        ,times
        ,cnt
        ,row_number() over(distribute by group_id,(data_rank-col_rank) sort by times) as rank1
    from (
        select
             group_id
            ,times
            ,cnt
            ,row_number() over(distribute by group_id sort by times) as data_rank
            ,row_number() over(distribute by group_id sort by if(cnt is null,0,1),times) as col_rank
        from test
    ) t
) t1
left join test t2 
    on  t1.group_id=t2.group_id 
    and if(t1.cnt is null,(t1.times-t1.rank1),t1.times)=t2.times;

可以看到为空的数据都以补全了,首条记录置为0 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值