IT系统运行维护方法及策略

本文探讨了IT运维服务体系的构建,强调了运维处理原则——以迅速恢复业务优先,介绍了故障定位和处理方法,包括隔离、重启和降级策略。同时,讨论了运维方式与运维处理方法论,提出运维服务应注重现场巡检和执行力建设,以及结合ITIL、SRE等理论。
摘要由CSDN通过智能技术生成

IT 运维服务体系的建议追从“易使用、易汇总、易管理”的先后顺序,由重到轻的依次解决客观存在的问题,以便最大程度的加快 IT 运维服务体系的建设的目标。运维服务体系由运维服务制度、运维服务流程、运维服务组织、运维服务队伍、运维技术服务平台以及运行维护对象六部分组成,涉及制度、人、技术、对象四类因素。

运维制度是规范运维管理工作的基本保障,也是流程建立的基础。运维服务组织中的相关人员遵照制度要求和标准化的流程,采用先进的运维管理平台对各类运维对象进行规范化的运行管理和技术操作。

IT故障定位指诊断故障直接原因或根因,故障定位有助于故障恢复动作更加有效。故障定位通常是整个故障过程中耗时最长的环节,定位的目标围绕在快速恢复的基础上,而并非寻找问题根因,后者由问题管理负责。通常大部分可用性故障,要借助运维专家经验的假设判断或已知预案的执行得到解决,但仍有部分故障,尤其是性能、应用逻辑、数据故障需要多方协同与工具支持。

在数据中心里,很多技术运维人员往往能够对已知的故障有敏锐的发现能力,可以根据自己遇到过的故障现象快速找到问题的根因。更为资深的专家能够从一些普适性的故障现象中通过系统的内在原理猜测出某个现象背后可能的原因。根据故障的表象判断可能的诊断路径是一个运维技术专家所必须具备的能力,这些能力往往是通过大量的运维案例不断的积累下来的。这也是专家有别于普通运维人员的地方。准确的数据采集实际上也是需要依靠运维知识的。

例如,如果我们要做故障分析,其中需要使用到CPU资源的使用情况,我们该如何采集数据呢?找某段时间里CPU的使用率的平均值还是最高阈值?如果出现CPU使用率100%就一定有问题吗?实际上并不是这么简单的,CPU突然出现的尖峰实际上大多数是无害的,不一定会对我们的系统产生不利的影响。只有长期CPU使用率都处于接近高位,此时CPU才有可能存在资源不足的瓶颈,影响系统的性能。

一、运维处理原则

IT系统运行过程中,难免会出现问题或故障,故障处理的原则归结起来就是两个:

⚫ 所有措施或方法都是以迅速恢复业务优先

⚫ 系统BUG或匹配需要及时升级并优化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值