YARN容错机制

最新推荐文章于 2023-09-28 15:02:40 发布

K. Bob

最新推荐文章于 2023-09-28 15:02:40 发布

阅读量1.3k

点赞数

分类专栏： Yarn

本文链接：https://blog.csdn.net/ThreeAspects/article/details/104208075

版权

本文详细介绍了YARN中任务、ApplicationMaster、NodeManager及ResourceManager的容错处理机制。当任务失败时，如MapTask或ReduceTask异常，YARN会重新调度任务，避免在同一NodeManager上重试。ApplicationMaster有最大尝试次数，失败后可恢复作业状态。NodeManager失败会导致任务重新分配，ResourceManager的失败则是集群的致命问题，需要高可用配置。

摘要由CSDN通过智能技术生成

在现实情况中，用户代码错误不断，进程奔溃，机器故障等等。使用hadoop的好处之一就是可以它能处理这类故障并成功完成任务。需要考虑的实体失败任务为：任务（job），Application Master，NodeManager和ResourceManager。

任务失败

可能存在以下情况：

MapTask或者ReduceTask中由于代码原因抛出异常，jvm在关闭之前，会通知mrAppMaster这个task任务失败，在mrAppMaster中，错误报告被写入到用户日志并且任务标记为失败，并释放jvm资源，供其他任务使用。对于streaming任务，如果streaming进程以非0退出代码退出，则被标记为失败。这种行为由stream.non.zero.is.failure属性（默认值为true）控制
jvm突然退出，可能是由于jvm缺陷而导致mr用户代码由于某种特殊原因造成jvm退出。nodeManage会将这消息通知到mrAppMaster，标记此次任务失败
任务挂起（可能是由于资源不足造成）：一旦mrAppMaster一段时间没有接收到进度的更新，则将任务标记为失败，nodeManager会将该jvm进程杀死。任务失败时长可以由mapreduce.task.timeout来设置。如果为0 ，则表示关闭。如果关闭这个属性，那么可能会造成长时间运行的任务不会被标记为失败，被挂起的任务就会一直不被释放资源，长时间会造成集群效率降低，因此尽量避免这个设置。同时充分保证每个任务定期更新进度。

处理：当mrAppMaster被告知，

最低0.47元/天解锁文章

K. Bob

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
YARN容错机制

在现实情况中，用户代码错误不断，进程奔溃，机器故障等等。使用hadoop的好处之一就是可以它能处理这类故障并成功完成任务。需要考虑的实体失败任务为：任务（job），Application Master，NodeManager和ResourceManager。任务失败可能存在以下情况：MapTask或者ReduceTask中由于代码原因抛出异常，jvm在关闭之前，会通知mrAppMast...
复制链接

扫一扫

专栏目录