hive多表联查full join连接条件问题

我们在hive中会经常使用多表联查,也就是我们常做的join 或者 union 。但是在写完SQL后会发现往往实现不了业务需求,而我们却又找不到原因所在,下面是多表联查有关full join的经典的问题。 

如果我们要查询的数据每一个表有一个字段进行连接,比如连接条件为on t1.id=t2.id,若要查询符合条件的所有数据势必使用full join,如果所有id对应每个表中都有数据,那么是不会出现问题的,但是通常不会所有id在任意表中都非空,这会出现一个问题。

就拿t1,t2,t3,3个表举例,每个表除了要查询id外,每个表各查询另一个字段datas(每个表的datas不同,这里只是泛指一个字段名而已),并取这三者的全部数据。当我们在查询完t1与t2表后需要进行full join,同样t2与t3也需要进行full join,就会出现下图的现象。

长方形表示各表id所属范围,t1可能有t2没有的id,同时t2也有可能有t1没有的id,当t1、t2两者full join on t1.id=t2.id 后,若再要对t3表进行full join可以,但是join条件为on t2.id=t3.id,或者说是on t1.id=t3.id的时候都会出现一个错误,因为如果单单用任意一个表的id对t3.id进行等值连接,则会缺少另一个表的等值连接条件,举例如果用t2.id=t3.id进行等值连接,则会出现以下情况。

select 
    t1.id,
    t1.data1,
    t2.data2,
    t3.data3
from t1
full join t2 on t1.id=t2.id
full join t3 on t2.id=t3.id

 这样会造成原本能与t1表连接的①号部分独立了出来,成为单独的若干行。

单独的连接条件显然不行的情况下,我们能否使用连接条件的组合呢?我们通常这时会想到比较简单的or关键字,在这个例子中or是可行的,但是例子的表比较少,如果是大数据行业,要连接的表过多,可以使用coalesce()函数(因为函数里只有两个字段在这同样能使用nvl()函数),如果t1.id无法匹配t3.id,就看t2.id是否匹配,三者都不匹配的条件下的t3.id才会另起一行单独出来。

select 
    t1.id,
    t1.data1,
    t2.data2,
    t3.data3
from t1
full join t2 on t1.id=t2.id
full join t3 on coalesce(t1.id,t2.id)=t3.id  --此处coalesce函数能用nvl代替,仅限于两个字段

这样确实能够实现业务与需求,但是如果数据量庞大(上百万行级别那种),若有原始数据维度表有全部id的话,我们还能通过left join解决速度过慢的问题。上述例子多表full join过慢的原因并不是full join 的问题,而是每次都要运行一次coalesce函数进行判断,而通过获取源数据的全部id,可以避免使用coalesce函数(仅限于有源数据表的情况下使用,不用也没关系)

select 
    t0.id, --t0为原始数据表,包含所有的id
    data1,
    data2,
    data3
from t0
left join t1 on t0.id=t1.id
left join t1 on t0.id=t2.id
left join t1 on t0.id=t3.id

这样写不仅运行速度快,写起来也最为方便,前提是公司得有这个表。

  • 12
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值