优化实战篇—自关联的优化

自关联的优化

根据定义,自关联是表自身的关联。自连接通常仅在给定数据中存在父子关系时使用。在本文中,我们将检查如何在Hive中编写自连接查询,它的性能问题以及如何优化它。开始之前我们可以看一下之前关于关联的文章

Hive实战之自关联经典案例

各种join 的执行计划

从查询结果进行自关联

有个需求就是我们需要从一个查询结果上进行自关联,这里我使用WITH 语法构造了这个查询,更多关于WITH的可以看看我们之前的文章

数仓工具—Hive语法之with as和from

数仓工具—Hive语法之with扩展

WITH sub_query AS(
    SELECT * FROM employee_manager
)
select EMPL.EID, EMPL.NAME, MANAGER.NAME as MANAGER_NAME
from  sub_query EMPL, sub_query MANAGER
where EMPL.eid = MANAGER.mid;

其实我们可以使用临时表来替代WITH语法,这个时候可能会看到性能有所提示,常见的创建临时表的方式如下

CREATE TEMPORARY TABLE temp1(col1 string);
CREATE TEMPORARY TABLE temp2 AS Select * from table_name; 
CREATE TEMPORARY TABLE temp3 LIKE table_name;

自关联的优化

其实关于自关联的优化手段,和我们之前优化join 的差不多,我们简单看一下

  1. 避免使用自关联在大表上,如果无法避免那么参考之前我们大表的关联优化方案
  2. 创建临时表避免WITH,因为你通过WITH 创建出来的对象在多次使用时会多次执行查询
  3. 在关联之前删除不必要的数据
  4. 创建索引,因为是自关联,所以我们就只需要创建一次索引
  • 6
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

不二人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值