看看阿里如何做到百万量级硬件故障自愈？

最新推荐文章于 2024-04-09 15:45:51 发布

qq_43171869

最新推荐文章于 2024-04-09 15:45:51 发布

阅读量478

点赞数 1

分类专栏： java

本文链接：https://blog.csdn.net/qq_43171869/article/details/84557546

版权

本文介绍了阿里巴巴如何通过其离线计算平台MaxCompute和飞天操作系统，面对数十万台服务器规模，解决硬件故障及时发现与业务迁移问题。文章详细阐述了天基(Tianji)应用管理体系和硬件自愈平台DAM的运作机制，包括硬件故障的发现、收敛、自愈流程以及架构演进，展示了AIOps在硬件故障自愈中的应用。

摘要由CSDN通过智能技术生成

1.背景

1.1.面临挑战

对于承载阿里巴巴集团95%数据存储及计算的离线计算平台MaxCompute，随着业务增长，服务器规模已达到数十万台，而离线作业的特性导致硬件故障不容易在软件层面被发现，同时集团统一的硬件报障阈值常常会遗漏一些对应用有影响的硬件故障，对于每一起漏报，都对集群的稳定性构成极大的挑战。

针对挑战，我们面对两个问题：硬件故障的及时发现与故障机的业务迁移。下面我们会围绕这两个问题进行分析，并详细介绍落地的自动化硬件自愈平台——DAM。在介绍之前我们先了解下飞天操作系统的应用管理体系——天基（Tianji）。

1.2.天基应用管理

MaxCompute是构建在阿里数据中心操作系统——飞天（Apsara）之上，飞天的所有应用均由天基管理。天基是一套自动化数据中心管理系统，管理数据中心中的硬件生命周期与各类静态资源（程序、配置、操作系统镜像、数据等）。而我们的硬件自愈体系正是与天基紧密结合，利用天基的Healing机制构建面向复杂业务的硬件故障发现、自愈维修闭环体系。