hivejoin过程中热点数据倾斜的一种解决方案

快乐的吗喽

已于 2024-05-23 18:03:21 修改

阅读量310

点赞数 3

文章标签： hive 数据库

于 2024-05-23 11:29:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50243264/article/details/139142253

版权

一、数据倾斜状况

大表join小表，默认使用mapjoin。大表内存1.2G，小表5M，通过省份关联，大表中部分省份数据是热点数据，map阶段数据倾斜，个别task执行时长远远大于其他task。

二、问题分析

热点省份数据大量分到同一个task中执行，maptask单个任务处理数据256M，只有17个maptask任务。map任务太少导致相同key分到同一个任务中。考虑增加maptask数量分散热点数据。

三、参数调整

--单个maptask处理数据量，3.2M

set mapred.max.split.size=3200000;

--单个reducetask处理数据量，12.8M
set hive.exec.reducers.bytes.per.reducer=12800000;

hivesql结尾加上distribute by rand()，可以调整reduce阶段输出的文件数量和平均分布文件大小（加上之前我的文件是15个，最大13G，最小240M;加上之后变成文件103个，每个大小在660M左右）,如果想指定存储文件数量可以用distribute by cast( rand() * num as int) ，num数值是多少，存储文件数量就是多少。

四、测试情况

各阶段执行时长单个task处理数据量各阶段数量
map:2m55s 6.4M map数量192
reduce:7m 6.4M reduce数量205

map:11m5s 6.4M map数量192
reduce:12m47s 64M reduce数量21

map:2m51s 6.4M map数量192
reduce:3m 12.8M reduce数量103

map:2m14s 6.4M map数量192
reduce:3m43s 25.6M reduce数量52

map:4m3s 12.8M map数量93
reduce:4m26s 12.8M reduce数量103

map:1m49s 3.2M map数量394
reduce:2m25s 12.8M reduce数量103

五、结果分析

根据测试结果可以得出结论，当map数量越多时，map阶段执行的越快，map阶段数量固定时，reduce数量从小到大执行时长会先变短后变长。选择合适的map数量和reduce数量可以明细提高任务执行效率。

快乐的吗喽

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

快乐的吗喽 CSDN认证博客专家 CSDN认证企业博客

码龄4年

2: 原创

170万+: 周排名

23万+: 总排名

544: 访问

: 等级

23: 积分

5: 粉丝

3: 获赞

1: 评论

11: 收藏

私信

关注

热门文章

最新评论

在liunx中执行hql文件并传参
CSDN-Ada助手: 恭喜您写了第一篇博客！看到您能够在Linux中执行hql文件并传参，真是让人佩服。希望您能够继续分享更多相关的技术经验，让我们一起学习成长。推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
在liunx中执行hql文件并传参
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/614934394。

最新文章

在liunx中执行hql文件并传参

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。