sql:
select
a.order_code,b.order_id
from
(select
order_code
from ods.ods_lsh_oms_order_head
where dt = '2018-08-05'
group by order_code) a
join
(select
order_id
from default.mds_lsh_trade_order_goods
where dt = '2018-08-05'
group by order_id) b
on a.order_code = b.order_id
where a.order_code = '6431878663716741120'
结果
可以看出结果异常,6431878663716741121这条数据也被关联出来。
结果分析
- 这两个表的关联键的数据类型不一致,order_code(bigint)、order_id(string);
- Hive不同类型数字关联的时候,会统一转化为double类型;
- order_id是19位整数,而double最多可以精确的表示14-15位整数,超出位数后就会出现不准确的情况,也就是说6431878663716741120,6431878663716741121两个订单号转成double类型后,会被认为是相等的;
解决办法
将两个表关联键的数据类型转成一致即可
cast(order_id as bigint)