关于hvie对join优化的一个隐藏的坑

本文讲述了在Hive中执行SQL时遇到的一个问题,由于Hive对join进行了mapjoin优化,当小表数据量超过一定阈值(如300万)导致内存溢出。通过取消mapjoin优化解决了这个问题。同时,文章介绍了mapjoin的原理,即为了优化大表与小表join的性能,将小表加载到内存,但在特定情况下可能造成性能瓶颈或内存问题。
摘要由CSDN通过智能技术生成

这里记录工作中遇到的一个问题,有一条sql在hive执行,在某些天执行异常。大概的sql结构如下

    select * from 
        (select * from t_a where dt=*) a
    left join t_b b
     on a.column=b.column;

拷贝一份执行log作为记录

Execution log at: /tmp/ide/ide_20170118143800_ccc5d46f-cf9c-401e-a019-c859831e27cf.log
2017-01-18 14:38:10 Starting to launch local task to process map join;  maximum memory = 1065484288
2017-01-18 14:38:14 Processing rows:    200000  Hashtable size: 199999  Memory usage:   69414544    percentage: 0.065
2017-01-18 14:38:15 Processing rows:    300000  Hashtable size: 299999  Memory usage:   99670168    percentage: 0.094
2017-01-18 14:38:16 Processing rows:    400000  Hashtable size: 399999  Memory usage:   131748832   percentage: 0.124
2017-01-18 14:38:17 Processing rows:    500000  Hashtable size: 499999  Memory usage:   162184848   percentage: 0.152
2017-01-18 14:38:17 Processing rows:    600000  Hashtable size: 599999  Memory usage:   191879808   percentage: 0.18
2017-01-18 14:38:18 Processing rows:    700000  Hashtable size: 699999  Memory usage:   222011048   percentage: 0.208
2017-
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值