大规模机器集群-故障自动处理(一)

最新推荐文章于 2024-05-30 19:16:56 发布

原创

最新推荐文章于 2024-05-30 19:16:56 发布 · 499 阅读

CC 4.0 BY-SA版权

本文探讨大规模机器集群在运维中遇到的问题，如硬件故障、运维效率低下等，并提出机器故障自动处理的解决方案，包括引入机器管理系统、优化运维模式以及实现故障检测与自动化维修流程。通过通用流程和差异化逻辑关联，确保自动化安全，并注重闭环和扩展性，以提高整体运维效率和业务稳定性。

前言

大规模集群，通常是一家公司经过多年发展积累起来的，机器规模达到数万台，服务类型涉及接入、web、业务逻辑、cache、大数据、机器学习等，有以下特点，

特点	现象&问题
机器规模大, 过保机器多，故障率高	数万台机器的集群，过保机器超过30%，硬件故障率约1.3%，其中磁盘故障率约7.5%
业务模块数目多，上下游关联复杂	处理机器问题需要同步处理上下游关系，包括监控、变更系统、状态同步等
机器环境差异大，故障处理、环境部署方式各异	环境设置不一样，包括系统、内核参数，基础环境依赖等
机器利用率不合理	A业务机器资源紧缺，B业务机器空闲，却无法快速调配使用
机器归属管理困难	不同业务的机器，借用、归还、环境清理、过保下架等流程冗长，沟通成本高
机器自动化处理工具不具备通用性，复用性低	A业务机器的自动处理工具，无法直接在B业务使用，运维工程师重复开发，无沉淀