Hive优化（2）之系统评估reduce数为1的MR Job优化

最新推荐文章于 2023-04-11 10:21:39 发布

lpxuan151009

最新推荐文章于 2023-04-11 10:21:39 发布

阅读量9k

点赞数

分类专栏： Hadoop&Hive 文章标签：优化 input output 算法任务

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lpxuan151009/article/details/7956554

版权

本文介绍了Hive中针对reduce数为1的MapReduce任务（MR Job）进行性能优化的方法。通过分析云霄飞车项目，揭示了Hive在估算reduce数时的问题，提出了优化算法，包括判断reduce数是否编译时确定以及根据输入文件大小重新估算reduce数。通过实例展示，调整reduce任务数量显著提升了作业执行效率。

摘要由CSDN通过智能技术生成

名词解释：

云霄飞车：hive本身对MR Job的 reduce数估算不合理，导致reduce分配过少，任务运行很慢，云霄飞车项目主要对hive本身reduce数的估算进行优化。

map_input_bytes：map输入文件大小，单位：bytes

map_output_bytes：map输出文件大小，单位：bytes

优化背景：

云霄飞车一期存在如下问题：只能优化reduce数>1的MR Job。原因在于无法确定reduce数为1是编译时确定还是根据map输入估算的结果。对于编译时确定，不能进行优化，否则导致结果错误；对于后者，需要进行优化，特别是对于map_output_bytes远大于map_input_bytes的情况，不进行优化将导致reduce执行过慢。

解决方法：

确定reduce数为1是编译时确定还是根据map_input_bytes估算得到的。具体实现方式：编译完成后，收集编译时确定的reduce数为1的Job；云霄飞车优化时，如果此Job的reduce数为1不在收集的Job集合里面，则此Job不是编译时确定的reduce，则进行优化，否则不优化。

优化算法：

hive估算reduce的逻辑如下：

判断Job是否需要reduce操作，如不需要reduce操作，reduce数设置为0，跳出；如需要reduce操作，执行步骤（2）；
判断Job是否在编译时确定reduce数为1，如编译确定为1，reduce数设置为1，跳出；如需要reduce操作，执行步骤（3）；

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Hive优化（2）之系统评估reduce数为1的MR Job优化

名词解释：云霄飞车：hive本身对MR Job的 reduce数估算不合理，导致reduce分配过少，任务运行很慢，云霄飞车项目主要对hive本身reduce数的估算进行优化。map_input_bytes：map输入文件大小，单位：bytesmap_output_bytes：map输出文件大小，单位：bytes 优化背景：云霄飞车一期存在如下问题：只能优化reduce
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。