ITSM/ITIL问题管理与做好应用运维的关系

问题管理是ITSM/ITIL中的重要环节,尤其在应用运维中能显著提升服务稳定性。其核心是确定事件根本原因并制定解决方案,减少事件发生。主要应用场景包括反复发生的事件、相同现象的多次出现、重大事件、临时解决方案事件及巡检发现的潜在问题。做好应用运维的问题管理,可以降低事件影响,提升IT服务可用性。
摘要由CSDN通过智能技术生成

ITSM/ITIL有一个非常重要而且和日常运维关系非常非常密切,但是在我们实践中往往用不好就是问题管理。从我这么多年的实践中确实是这样,发现用的好的,往往是和应用运维和开发关系结合的非常密切。在桌面服务、应用运维、基础架构和基础设施运维几块运维工作来看,应用运维在用好问题管理,是有很多工作可以做的,也是最容易发挥价值的一块,也是实施ITSM的难点之一,做好了应用运维的问题管理也就做好了问题管理,会是项目的亮点之一,因为它有四个非常重要的价值。
问题管理流程是确定某一事件或具有相同症状的一组事件的根本原因,制定和实施解决方案,从而防止事件再次发生的管理流程。其目的是找出事件根本原因,尽可能的给出解决方案或者临时应对措施。目标是降低生产环境中事件发生的数量和严重程度,从而为企业建立一个稳定的 IT 环境,提高 IT 服务的可用性。这里涉及到二个核心的概念:问题和已知错误。
问题(Problem):多个有相同现象的事件或一个重大的事件,并且存在某个未知原因的错误的情况。
已知错误(Known Error):已经成功诊断问题的根源,找到解决方案的情况。
一个问题有几个触发条件,或者说有哪几个应用场景呢?有以下几个:
(1)同一个事件反复发生。这就意味着之前的事件的解决可能只是临时解决,没有找到根本原因、解决方案。
(2)同一个现象多次发生。这类就是可能是同一个系统、同一类设备,其现象相同或者相似。
(3)重大事件发生。这类往往对业务产生了重大影响,这类事件可能在事件中已经临时、应急处理了,需要通过问题管理追查发生的根本原因和解决方案。也有可能从根本上从技术层面根本上解决了,但是要从流程、制度、管理上去找原因,为什么不可以避免。
(4)一切由临时解决方案解决的事件。比如说“万能的重启”解决的事件、直接修改异常数据解决的事件等等。
(5)因为巡检等发现的未知根本原因的潜在问题和重大风险。这类可以直接触发问题去解决,已经发生的故障的,应该通过事件首先处理。
运维服务的工作,大致上可以分为桌面服务、应用运维、基础架构运维和基础设施运维等。这几块容易把问题用好的是桌面服务和应用运维。对于基础架构和基础设施,我的建议是一个重大事件、一个是巡检做好,作为问题的两个输入即可,这个其实比较好落地,但是在问题管理中应用不是主流。如果是就太麻烦了,比如数据中心基础设施和IT基础设施总是出问题不可想象,一般不太会。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值