Hive中join, outer join, semi join区别

原创 2014年05月05日 14:12:36

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。


最常用的就是多表关联查询,主要讲解下join、outer join和semi join的具体使用。


join是最简单的关联操作,两边关联只取交集。


outer join分为left outer join、right outer join和full outer join。

left outer join是以左表驱动,右表不存在的key均赋值为null;

right outer join是以右表驱动,左表不存在的key均赋值为null;

full outer join全表关联,将两表完整的进行笛卡尔积操作,左右表均可赋值为null。


semi join最主要的使用场景就是解决exist in。

Hive不支持where子句中的子查询,SQL常用的exist in子句在Hive中是不支持的。

SELECT a.key, a.value

FROM a

WHERE a.key in (SELECT b.key FROM B);

可以改写为:

SELECT a.key, a.value

FROM a LEFT OUTER JOIN b ON (a.key = b.key)

WHERE b.key <> NULL;

一个更高效的实现为:

SELECT a.key, a.value

FROM a LEFT SEMI JOIN b on (a.key = b.key);


left semi join是0.5.0以上版本的特性。

相关文章推荐

[Hive]用left semi join替代in子查询的方式

hive用left semi join替代in子查询的方式

Hive.LEFT SEMI JOIN子句

公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的,现在的工作主要是数据分析,自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识,神马结构化查询语言也只是听说而已,不...

hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。 Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语...
  • bbbeoy
  • bbbeoy
  • 2017年03月15日 20:15
  • 224

HIVE 中内连接(JOIN ON) 与 LEFT SEMI JOIN 分析

由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的。 由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的,但是由于实际...

hadoop join之semi join

SemiJoin,也叫半连接,是从分布式数据库中借鉴过来的方法。它的产生动机是:对于reduce side join,跨机器的数据传输量非常大,这成了join操作的一个瓶颈,如果能够在map端过滤掉不...

MapReduce表连接之半连接SemiJoin

一:背景 SemiJoin,一般称为半连接,其原理是在Map端过滤掉一些不需要join的数据,从而大大减少了reduce和Shuffle的时间,因为我们知道,如果仅仅使用Reduce端连接,那么如果...

hive 包含操作(left semi join)(left outer join = in)迪卡尔积

目前hive不支持 in或not in 中包含查询子句的语法,所以只能通过left join实现。 假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注...

hive 各种 join (left outer join、join、full outer join)

一、概念 1、左连接 left outer join 以左边表为准,逐条去右边表找相同字段,如果有多条会依次列出 2、连接join 找出左右相同同的记录 二、实验 1、准备数据 create ex...

hive各种join(leftouterjoin、join、fullouterjoin)

文章来源:http://www.it165.net/database/html/201408/7812.html 一、概念 1、左连接 left outer join 以左边表为...

Hive join操作小结

本篇对Hive QL中join、left outer join、left semi join和full outer join等表连结操作作一简要总结。 1、测试表准备 首先准备三张测试表,内容分别为:...
  • xyilu
  • xyilu
  • 2012年10月25日 22:11
  • 20377
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hive中join, outer join, semi join区别
举报原因:
原因补充:

(最多只允许输入30个字)