Hive不支持on语句中的非等值比较的解决办法

首先来看个例子

SELECT * 
FROM A
LEFT JOIN B 
ON A.id=B.id 
AND A.id2=B.id2 
AND A.startTime<= B.time AND B.time < A.endTime

因为Hive中不支持on语句的非等值比较,所以上述执行会出错。你以为修改成下面这个样子,把非等值的比较放到where字句上面就行了吧?来看看结果如何。

SELECT * 
FROM A
LEFT JOIN B ON A.id=B.id AND A.id2=B.id2
WHERE A.startTime<= B.time AND B.time < A.endTime

如果不幸left join后右表为NULL呢?结果是,where字句中的比较只要包含了NULL,就会比较结果为false,返回为空值。也就是得到的结果会比你想象的少。

SQL结果
select 1 from dual where null=null什么都没有
select 1 from dual where null<>null什么都没有
select 1 from dual where 1=null什么都没有
select 1 from dual where 1<>null什么都没有

正确做法是加上nvl函数,并且把nvl(目标字段,null_if_value)中null_if_value一般设置为特殊字段"0"或者"-1"。

SQL结果
select 1 from dual where nvl(null,-1)=nvl(null,-1)1
select 1 from dual where nvl(null,-1)<>nvl(null,-1)什么都没有
select 1 from dual where 1=nvl(null,-1)什么都没有
select 1 from dual where 1<>nvl(null,-1)1

弄明白原理之后来看看应该怎么修改原来的代码才能不出错。
一种方法是补上右表为null的那部分表,也就是union all右表为空的表。

SELECT * 
FROM A
LEFT JOIN B ON A.id=B.id AND A.id2=B.id2
WHERE A.startTime<= B.time AND B.time < A.endTime
UNION ALL
SELECT * 
FROM A
LEFT JOIN B ON A.id=B.id AND A.id2=B.id2
WHERE B.time IS NULL

另一种方法可以使用子查询来筛选出A表的startTime、endTime和B表的time都非空的字段后,再与原表left join。

SELECT *
FROM A
LEFT JOIN
(SELECT A.id 
FROM A JOIN B
ON A.id=B.id
WHERE A.startTime<= B.time AND B.time < A.endTime
)B
ON A.id=B.id

参考:
[1]: https://blog.csdn.net/wisdom_c_1010/article/details/79483380
[2]: https://blog.csdn.net/wisdom_c_1010/article/details/79539741
[3]: https://segmentfault.com/a/1190000006189065

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值