Hive.LEFT SEMI JOIN子句

最新推荐文章于 2024-06-19 12:13:59 发布

mashroomxl

最新推荐文章于 2024-06-19 12:13:59 发布

阅读量1w

点赞数 1

分类专栏： Hive HQL

本文链接：https://blog.csdn.net/mashroomxl/article/details/20845279

版权

Hive 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

HQL

7 篇文章 0 订阅

订阅专栏

公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的，现在的工作主要是数据分析，自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识，神马结构化查询语言也只是听说而已，不过，这没关系，实际工作一来，学习起来还是很快~~

年前有一个同事叫帮忙查某个产品的月度留存UV这个数据，当时业务不熟，还去参照了一下别人是怎么定义留存用户这个指标的。。。然后根据自己的理解，用下面这种形式(其实刚开始的逻辑写得比这个还拙计，我不会到处乱说)的脚本逻辑去查：

SELECT
	t1.产品类型,
	COUNT(DISTINCT (IF(t2.用户ID IS NULL, NULL, t1.用户ID))) AS KEEP_UV
FROM
(
	SELECT
		产品类型,
		用户ID
	FROM 事实表
	WHERE (`DATE` >= 20140201 AND `DATE` <= 20140228)
) t1
LEFT OUTER JOIN
(
	SELECT
		产品类型,
		用户ID
	FROM 事实表
	WHERE (`DATE` >= 20140101 AND `DATE` <= 20140131)
) t2 ON (t1.产品类型 = t2.产品类型 AND t1.用户ID = t2.用户ID)
GROUP BY t1.产品类型

但是，这个事实表本身所包含的字段很多，信息量很大，加上时间跨度为2个月，当时就想会不会略慢，结果跑起来果然慢得很，Map或者Reduce的任务经常卡在某个百分点比较久时间。

看着MapReduce像蜗牛一样行进着，我才忽然想到在官方Wiki上貌似看到过这种 IN / EXISTS子查询（准确地说，这里是非相关子查询）有一种高效的实现，就是LEFT SEMI JOIN：

LEFT SEMI JOIN implements the uncorrelated IN/EXISTS subquery semantics in an efficient way.

于是抱着试一试的心态，马上修改脚本，用下面的形式去跑：

SELECT
	产品类型,
	COUNT(DISTINCT t1.用户ID) AS KEEP_UV
FROM
(
	SELECT
		产品类型,
		用户ID
	FROM 事实表
	WHERE (`DATE` >= 20140201 AND `DATE` <= 20140228)
) t1
LEFT SEMI JOIN
(
	SELECT
		产品类型,
		用户ID
	FROM 事实表
	WHERE (`DATE` >= 20140101 AND `DATE` <= 20140131)
) t2 ON (t1.产品类型 = t2.产品类型 AND t1.用户ID = t2.用户ID)
GROUP BY 产品类型

果然，第2种脚本很快就出来结果了，而第1种脚本还在某个百分点艰难地挪步。。。

值得注意的是，用了LEFT SEMI JOIN子句以后，右边的表在JOIN操作以外就不可见了，也就是说，右边的表只能在对应的ON子句中被引用。
以上只是直观的感觉，从定性的层面感受到LEFT SEMI JOIN方式的性能真的是很不错，不晓得这样的效果除了来自Hive本身的官方高效实现外，与公司的生产环境有没有关系。。。
怎么样，是不是想看看Hive这种特有的方式究竟为我们的查询带来了多大的时间效能改进？是不是也想看看它在源码里究竟是怎样的实现？行动起来吧。

mashroomxl

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Hive.LEFT SEMI JOIN子句

公司的数据仓库和离线数据分析是建立在Hadoop + Hive基础上的，现在的工作主要是数据分析，自然也就跟HQL查询经常打交道了。刚来公司几乎完全不懂数据库知识，神马结构化查询语言也只是听说而已，不过，这没关系，实际工作一来，学习起来还是很快~~ 年前有一个同事叫帮忙查某个产品的月度留存UV这个数据，当时业务不熟，还去参照了一下别人是怎么定义留存用户这个指标的。。。然后根据自己
复制链接

扫一扫