Hive中join, outer join, semi join区别

原创 2014年05月05日 14:12:36

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。


最常用的就是多表关联查询,主要讲解下join、outer join和semi join的具体使用。


join是最简单的关联操作,两边关联只取交集。


outer join分为left outer join、right outer join和full outer join。

left outer join是以左表驱动,右表不存在的key均赋值为null;

right outer join是以右表驱动,左表不存在的key均赋值为null;

full outer join全表关联,将两表完整的进行笛卡尔积操作,左右表均可赋值为null。


semi join最主要的使用场景就是解决exist in。

Hive不支持where子句中的子查询,SQL常用的exist in子句在Hive中是不支持的。

SELECT a.key, a.value

FROM a

WHERE a.key in (SELECT b.key FROM B);

可以改写为:

SELECT a.key, a.value

FROM a LEFT OUTER JOIN b ON (a.key = b.key)

WHERE b.key <> NULL;

一个更高效的实现为:

SELECT a.key, a.value

FROM a LEFT SEMI JOIN b on (a.key = b.key);


left semi join是0.5.0以上版本的特性。

MapReduce表连接之半连接SemiJoin

一:背景 SemiJoin,一般称为半连接,其原理是在Map端过滤掉一些不需要join的数据,从而大大减少了reduce和Shuffle的时间,因为我们知道,如果仅仅使用Reduce端连接,那么如果...
  • lzm1340458776
  • lzm1340458776
  • 2015-01-22 11:55:23
  • 2023

简单介绍join,outer-join,semi-join,anti-join的区别

join,outer-join,semi-join,anti-join
  • wh62592855
  • wh62592855
  • 2011-05-17 14:50:00
  • 6448

hadoop join之semi join

SemiJoin,也叫半连接,是从分布式数据库中借鉴过来的方法。它的产生动机是:对于reduce side join,跨机器的数据传输量非常大,这成了join操作的一个瓶颈,如果能够在map端过滤掉不...
  • huashetianzu
  • huashetianzu
  • 2012-08-02 16:03:55
  • 4258

semi join 与 anti join

semi join  与  anti join create table dept (deptno number(5), dname varchar2(20)); create table emp ...
  • ggxxkkll
  • ggxxkkll
  • 2014-02-13 13:37:23
  • 1378

SQL中的Filter, join, semi-join等概念的释义

经常在工作中用到,虽然当年在数据库原理课程中学习过,不过基本已经还给老师了。工作这么多年,感觉自己在学习上倒退了很多,惭愧。这篇帖子,作为SQL相关知识的整理贴。 1、semi-join(半连接)...
  • edychang
  • edychang
  • 2013-10-24 16:51:22
  • 5125

mysql中semi-join的优化策略介绍

1. 背景介绍 什么是semi-join? 所谓的semi-join是指semi-join子查询。 该子查询具有如下结构: SELECT ... FROM outer_tables WHERE ex...
  • gao1738
  • gao1738
  • 2015-01-18 20:15:33
  • 480

[Hive]用left semi join替代in子查询的方式

hive用left semi join替代in子查询的方式
  • yeweiouyang
  • yeweiouyang
  • 2014-12-01 17:52:34
  • 7214

hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。 Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语...
  • bbbeoy
  • bbbeoy
  • 2017-03-15 20:15:47
  • 1089

HIVE 中内连接(JOIN ON) 与 LEFT SEMI JOIN 分析

由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的。 由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的,但是由于实际...
  • Shadow_Mi
  • Shadow_Mi
  • 2016-10-09 08:47:13
  • 2243

Hive的left join、left outer join和left semi join三者的区别

Hive的left join、left outer join和left semi join三者的区别 Hive的Join的文档说明地址: https://cwiki.apache.or...
  • nysyxxg
  • nysyxxg
  • 2015-04-01 18:21:48
  • 890
收藏助手
不良信息举报
您举报文章:Hive中join, outer join, semi join区别
举报原因:
原因补充:

(最多只允许输入30个字)