HIVE中关联键类型不同导致数据重复,以及数据倾斜

比如左表关联键是string类型,右表关联键是bigint类型,关联后会出现多条的情况

解决方案:

        关联键先统一转成string类型再进行关联

原因:

根据HIVE版本不同,数据位数上限不同,

低版本的超过16位会出现这种情况,高版本的超过19位会出现这种情况

以下为低版本HIVE数据测试情况:

select 
    * 
from 
     (
        select '3618693946106075234' as str_ord  -- 19位
        union all
        select '361869394610607523' as str_ord  -- 18位
        union all
        select '36186939461060752' as str_ord  -- 17位
        union all
        select '3618693946106075' as str_ord  -- 16位
     ) a
join 
     (
         select 3618693946106075234  as int_Ord
         union all 
         select 3618693946106075233 as int_Ord
         union all 
         select 361869394610607523 as int_Ord
         union all 
         select 361869394610607524 as int_Ord
         union all
        select 36186939461060752 as int_Ord  -- 17位
         union all
        select 36186939461060751 as int_Ord  -- 17位
         union all
        select 3618693946106075 as int_Ord  -- 16位
         union all
        select 3618693946106076 as int_Ord  -- 16位
     ) b 
on a.str_ord  = b.int_Ord

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值