Hive 优化之推测执行

最新推荐文章于 2021-07-12 16:02:24 发布

雾岛与鲸

最新推荐文章于 2021-07-12 16:02:24 发布

阅读量791

点赞数 2

分类专栏： hive 文章标签： hive 大数据 hadoop

本文链接：https://blog.csdn.net/qq_36039236/article/details/108214457

版权

hive 专栏收录该内容

64 篇文章 15 订阅

订阅专栏

1. 为什么需要推测执行？

MapReduce将作业分解成多个任务并行运行的机制，决定了作业运行的总体时间对运行缓慢的任务比较敏感。为了尽量避免运行缓慢的任务对作业运行时间“托后腿”的情况，需要启动作业的推测执行。

2. 什么是推测执行？

在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢作业的整体执行进度。为了避免这种情况发生，Hadoop采用了推测执行（Speculative Execution）机制，它根据一定的法则推测出“拖后腿”的任务，并为这样的任务启动一个备份任务，让该任务与原始任务同时处理同一份数据，并最终选用最先成功运行完成任务的计算结果作为最终结果。

3. 推测执行配置

设置开启推测执行参数：Hadoop的mapred-site.xml文件中进行配置

<property>
    <name>mapreduce.map.speculative</name>
    <value>true</value>
    <description>如果任务运行较慢，决定是否运行相应Map任务的推测执行</description>
</property>

<property>
    <name>mapreduce.reduce.speculative</name>
    <value>true</value>
    <description>如果任务运行较慢，决定是否运行相应Reduce任务的推测执行</description>
</property>

hive本身也提供了配置项来控制reduce-side的推测执行

<property>
    <name>hive.mapred.reduce.tasks.speculative.execution</name>
    <value>true</value>
    <description>Whether speculative execution for reducers 
    should be turned on.     
    </description>
</property>

4. 总结

关于调优这些推测执行变量，还很难给一个具体的建议。如果用户对于运行时的偏差非常敏感的话，那么可以将这些功能关闭掉。如果用户因为输入数据量很大而需要执行长时间的map或者Reduce task的话，那么启动推测执行造成的浪费是非常巨大。

任务运行缓慢的原因有多种，可能是硬件老化，也可能是软件问题。若是软件问题，需优化程序，推测执行不能从根本上解决问题。
推测执行是利用资源来优化时间的一种策略。若资源本来就紧张的情况下，是无法通过推测执行来优化系统性能的。

雾岛与鲸

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive 优化之推测执行

1. 为什么需要推测执行？MapReduce将作业分解成多个任务并行运行的机制，决定了作业运行的总体时间对运行缓慢的任务比较敏感。为了尽量避免运行缓慢的任务对作业运行时间“托后腿”的情况，需要启动作业的推测执行。2. 什么是推测执行？在分布式集群环境下，因为程序Bug（包括Hadoop本身的bug），负载不均衡或者资源分布不均等原因，会造成同一个作业的多个任务之间运行速度不一致，有些任务的运行速度可能明显慢于其他任务（比如一个作业的某个任务进度只有50%，而其他所有任务已经运行完毕），则这些任务会拖慢
复制链接

扫一扫