Hive中使用JOIN时自动过滤掉为NULL的数据

本文探讨了在Hive SQL中,LEFT JOIN与WHERE子句一起使用时可能导致NULL数据丢失的问题。通过三个示例展示了不同写法的影响,并通过EXPLAIN命令解析了执行计划,揭示了WHERE子句位置不同导致的过滤效果差异。强调了正确理解和使用LEFT JOIN以避免数据丢失的重要性。
摘要由CSDN通过智能技术生成

 

最近工作写hive sql的时候发现了一个问题 left join和where一块用时,会出现null值数据丢失的问题

研究了一下,发现  where 写的位置不同 会有不同的结果

首先准备两张表 tableA 和 tableB,数据如下图

下面三个sql语句来来进行一下演示

SELECT 
    a.col1,
    b.col2
FROM
    tableA a
LEFT JOIN 
    tableB b ON a.id = b.id
WHERE 
a.dt = '${bizdate}'
AND b.dt = '${bizdate}';

得出结果如下图

这种写法,left join 执行的效果会和 join 执行的效果一样,丢失为 null 的数据

SELECT 
    a.col1,
    b.col2
FROM 
    tableA a
LEFT JOIN 
    tableB b ON a.id = b.id and b.dt = '${bizdate}'
WHERE a.dt = '${bizdate}';

     这种方法不会丢失 主表 的数据

SELECT 
    a.col1,
    b.col2
FROM 
    (SELECT id,col1 FROM tableA WHERE dt = '${bizdate}') a
LEFT JOIN 
    (SELECT id,col2 FROM tableB WHERE dt = '${bizdate}') b
ON a.id = b.id 

      第三种方法也不会丢失 主表 的数据

以上三种情况,第一种写法看着是left join,实际执行的是join,所以会丢失数据,使用的时候要注意

我们可以通过Explain语法,查看三句代码底层执行过程来进行原理的深究

hive> EXPLAIN
    > SELECT
    >     a.col1,
    >     b.col2
    > FROM
    >     tableA a
    > LEFT JOIN
    >     tableB b ON a.id = b.id
    > WHERE
    > a.dt = '2021-05-14'
    > AND b.dt 
  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值