Hive map阶段缓慢，优化过程详细分析

最新推荐文章于 2023-12-14 20:11:17 发布

weixin_33697898

最新推荐文章于 2023-12-14 20:11:17 发布

阅读量7.1k

点赞数 5

文章标签：大数据

原文链接：https://yq.aliyun.com/articles/181138

版权

本文分析了一例Hive查询中map阶段缓慢的问题。通过执行计划和数据量分析，排除了SQL语句和数据切分问题。接着检查了机器负载，发现并非机器性能导致。进一步通过分段SQL测试定位到mapjoin过程中的类型转换问题，特别是double类型的数据导致的HashMap到LinkedList降级，从而影响性能。最后，提出在JOIN前手动进行类型匹配以避免此问题，以提高查询效率。

摘要由CSDN通过智能技术生成

背景

同事写了这样一段HQL(涉及公司数据，表名由假名替换，语句与真实场景略有不同，但不影响分析)：

CREATE TABLE tmp AS
SELECT
t1.exk,
t1.exv,
M.makename AS m_makename,
S.makename AS s_makename,
FROM
(SELECT
exk,
exv
FROM xx.xxx_log
WHERE etl_dt = '2017-01-12'
AND exk IN ('xxID', 'yyID') ) t1
LEFT JOIN xx.xxx_model_info M ON (M.modelid=t1.exv AND t1.exk='xxID')
LEFT JOIN xx.xxx_style_info S ON (S.styleid=t1.exv AND t1.exk='yyID')

任务运行过程中非常缓慢，同事反映说这个任务要跑一个多小时。初步问了下，xx.xxx_log表数据量在分区etl_dt = '2017-01-12'上大概1亿3000万，xx.xxx_model_info大概3000多，xx.xxx_style_info大概4万多。

分析

第一步，分析HQL语句着手

从同事提供的数据量上看，两个left join显然应该是mapjoin，因为数据量差距悬殊。当前只有HQL语句，所以优化第一步当然要从HQL语句本身出发，看HQL语句是否有不恰当的地方。

从语句上看，就是取三张表的数据，按条件进行join，最后创建并插入一张hive表。语句上看没什么问题。

那就来看执行计划吧~ 我们只看建表后面的SELECT语句，如下

STAGE DEPENDENCIES:
Stage-5 is a root stage
Stage-4 depends on stages: Stage-5
Stage-0 depends on stages: Stage-4
STAGE PLANS:
Stage: Stage-5
Map Reduce Local Work
Alias -> Map Local Tables:
m
Fetch Operator
limit: -1
s
Fetch Operator
limit: -1
Alias -> Map Local Operator Tree:
m
TableScan
alias: m

最低0.47元/天解锁文章

weixin_33697898

关注

5
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
Hive map阶段缓慢，优化过程详细分析

背景同事写了这样一段HQL(涉及公司数据，表名由假名替换，语句与真实场景略有不同，但不影响分析)：CREATETABLEtmpASSELECTt1.exk,t1.exv,M.makenameASm_makename,S.makenameASs_maken...
复制链接

扫一扫