【Hive】MapRedTask报错处理记录

最新推荐文章于 2022-08-04 21:57:41 发布

喜东东cc

最新推荐文章于 2022-08-04 21:57:41 发布

阅读量1.9k

点赞数

分类专栏：数据库

本文链接：https://blog.csdn.net/qq_34105362/article/details/113349248

版权

本文记录了在处理Hive查询时遇到的MapRedTask问题及解决方案，包括reduce端任务停滞、map端数据倾斜以及join操作不平衡的情况。通过调整reduce任务数量、优化SQL语句以及合并关联键来解决问题，实现了Hive性能的优化。

摘要由CSDN通过智能技术生成

实例1：reduce端

场景：跑日分区表3年历史数据，SQL为日数据 left join 基本信息的结构。

问题：stage-1的reduce跑不动

解决：暴力解决，直接把reduce tasks的数调大

set mapred.reduce.tasks=1000; --可多试几个数值

实例2：map端

场景：统计特定客户的订单汇总指标，SQL的初始结构为：

select  
    客户姓名, count(订单号) as num, count(if(订单完成天数<10, 订单号, null)) as le10_num
from 客户列表 as t1 
left join 客户订单流水表 as t2 on t1.客户编号=t2.客户编号
group by 客户姓名

问题：stage-1的map跑不动

思路：

1、分别统计2张表的大小，发现是小表（几百条数据）关联

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

喜东东cc

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【Hive】MapRedTask报错处理记录

实例1：场景：跑日分区表3年历史数据，SQL为日数据 left join 基本信息的结构。问题：stage-1的reduce跑不动暴力解决方案，直接把reduce tasks的数调大set mapred.reduce.tasks=1000; --可多试几个数值...
复制链接

扫一扫