MapReduce的优化

最新推荐文章于 2022-06-30 21:37:43 发布

jim8973

最新推荐文章于 2022-06-30 21:37:43 发布

阅读量446

点赞数

分类专栏： hadoop

本文链接：https://blog.csdn.net/jim8973/article/details/104883346

版权

hadoop 专栏收录该内容

13 篇文章 0 订阅

订阅专栏

mapreduce.job.jvm.numtasks
默认值： 1
说明：一个jvm可连续启动多个同类型任务，默认值1，若为-1表示不受限制
开启JVM 重用对于大量小文件Job，可以开启JVM 重用会减少 45%运行时间。JVM 重用理解：一个 map 运行一个 jvm，重用的话，在一个 map 在 jvm 上运行完毕后，jvm 继续运行其他 map。具体设置：mapreduce.job.jvm.numtasks 值在 10-20 之间

<property>
  <name>mapreduce.map.speculative</name>
  <value>true</value>
  <description>If true, then multiple instances of some map tasks 
               may be executed in parallel.</description>
</property>

speculative:推测/预测/推断执行,默认开启。长尾作业（拖后腿的Task）在其他机器上再执行一次，谁先跑完就以这个作为结果，同时把还没跑完的kill掉。但是数据倾斜了就很危险，因为在这台机器是数据倾斜，换一台机器同样是数据倾斜的，还是很慢。跑不出结果，所以要解决数据倾斜

jim8973

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MapReduce的优化

mapreduce.job.jvm.numtasks默认值： 1说明：一个jvm可连续启动多个同类型任务，默认值1，若为-1表示不受限制开启JVM 重用对于大量小文件Job，可以开启JVM 重用会减少 45%运行时间。JVM 重用理解：一个 map 运行一个 jvm，重用的话，在一个 map 在 jvm 上运行完毕后，jvm 继续运行其他 map。具体设置：mapreduce.job.jvm...
复制链接

扫一扫