hive中实现差集等操作

一般我们在使用hive进行处理两个数据集的使用经常会遇到处理两个数据集的求差集的问题

经过测试提供几个解决方案:

test1

a       1
b       2
c       1

test_2

a       22
c       55

1) 这里我们就要介绍一个hive的 关键字(left semi join)他解决的问题是:IN/EXISTS

例子1:

      	select test_1.id, test_1.num from test_1 left semi join test_2 on (test_1.id = test_2.id);
             结果:

a       1
c       1

         2) left outer join 解决 A差B的问题:

例子2::

          select test_1.id, test_1.num from test_1 left outer join test_2 on (test_2.id = test_2.id) where test_2.num is null;
  结果:

b       2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值