Hive中join, outer join, semi join区别

原创 2014年05月05日 14:12:36

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。


最常用的就是多表关联查询,主要讲解下join、outer join和semi join的具体使用。


join是最简单的关联操作,两边关联只取交集。


outer join分为left outer join、right outer join和full outer join。

left outer join是以左表驱动,右表不存在的key均赋值为null;

right outer join是以右表驱动,左表不存在的key均赋值为null;

full outer join全表关联,将两表完整的进行笛卡尔积操作,左右表均可赋值为null。


semi join最主要的使用场景就是解决exist in。

Hive不支持where子句中的子查询,SQL常用的exist in子句在Hive中是不支持的。

SELECT a.key, a.value

FROM a

WHERE a.key in (SELECT b.key FROM B);

可以改写为:

SELECT a.key, a.value

FROM a LEFT OUTER JOIN b ON (a.key = b.key)

WHERE b.key <> NULL;

一个更高效的实现为:

SELECT a.key, a.value

FROM a LEFT SEMI JOIN b on (a.key = b.key);


left semi join是0.5.0以上版本的特性。

MapReduce表连接之半连接SemiJoin

一:背景 SemiJoin,一般称为半连接,其原理是在Map端过滤掉一些不需要join的数据,从而大大减少了reduce和Shuffle的时间,因为我们知道,如果仅仅使用Reduce端连接,那么如果...
  • lzm1340458776
  • lzm1340458776
  • 2015年01月22日 11:55
  • 1501

简单介绍join,outer-join,semi-join,anti-join的区别

join,outer-join,semi-join,anti-join
  • wh62592855
  • wh62592855
  • 2011年05月17日 14:50
  • 5996

hadoop join之semi join

SemiJoin,也叫半连接,是从分布式数据库中借鉴过来的方法。它的产生动机是:对于reduce side join,跨机器的数据传输量非常大,这成了join操作的一个瓶颈,如果能够在map端过滤掉不...
  • huashetianzu
  • huashetianzu
  • 2012年08月02日 16:03
  • 4115

SQL中的Filter, join, semi-join等概念的释义

经常在工作中用到,虽然当年在数据库原理课程中学习过,不过基本已经还给老师了。工作这么多年,感觉自己在学习上倒退了很多,惭愧。这篇帖子,作为SQL相关知识的整理贴。 1、semi-join(半连接)...
  • edychang
  • edychang
  • 2013年10月24日 16:51
  • 4873

mysql中semi-join的优化策略介绍

转自:http://blog.sina.com.cn/s/blog_4673e60301011qvx.html 1. 背景介绍 什么是semi-join? 所谓的semi-join是指semi-...
  • lidan3959
  • lidan3959
  • 2013年01月16日 16:45
  • 801

【semi join】IN/EXISTS子查询的区别及其优化方式

【semi join】IN/EXISTS子查询的区别及其优化方式 2013-04-27 12:45:18 分类: Oracle     在ORACLE 11G大行其道的今天,还有很多人受...
  • jieouyang
  • jieouyang
  • 2013年04月30日 01:14
  • 3558

[Hive]用left semi join替代in子查询的方式

hive用left semi join替代in子查询的方式
  • yeweiouyang
  • yeweiouyang
  • 2014年12月01日 17:52
  • 6627

HIVE 中内连接(JOIN ON) 与 LEFT SEMI JOIN 分析

由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的。 由于HIVE中都是等值连接,在JOIN使用的时候,有两种写法在理论上是可以达到相同的效果的,但是由于实际...
  • Shadow_Mi
  • Shadow_Mi
  • 2016年10月09日 08:47
  • 1724

Hive.LEFT SEMI JOIN子句

公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的,现在的工作主要是数据分析,自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识,神马结构化查询语言也只是听说而已,不...
  • mashroomxl
  • mashroomxl
  • 2014年03月09日 15:51
  • 6550

hive中的LEFT SEMI JOIN

LEFT SEMI JOIN 是 IN/EXISTS 子查询的一种更高效的实现。 Hive 当前没有实现 IN/EXISTS 子查询,所以你可以用 LEFT SEMI JOIN 重写你的子查询语...
  • bbbeoy
  • bbbeoy
  • 2017年03月15日 20:15
  • 324
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Hive中join, outer join, semi join区别
举报原因:
原因补充:

(最多只允许输入30个字)