ITSM/ITIL有一个非常重要而且和日常运维关系非常非常密切,但是在我们实践中往往用不好就是问题管理。从我这么多年的实践中确实是这样,发现用的好的,往往是和应用运维和开发关系结合的非常密切。在桌面服务、应用运维、基础架构和基础设施运维几块运维工作来看,应用运维在用好问题管理,是有很多工作可以做的,也是最容易发挥价值的一块,也是实施ITSM的难点之一,做好了应用运维的问题管理也就做好了问题管理,会是项目的亮点之一,因为它有四个非常重要的价值。
问题管理流程是确定某一事件或具有相同症状的一组事件的根本原因,制定和实施解决方案,从而防止事件再次发生的管理流程。其目的是找出事件根本原因,尽可能的给出解决方案或者临时应对措施。目标是降低生产环境中事件发生的数量和严重程度,从而为企业建立一个稳定的 IT 环境,提高 IT 服务的可用性。这里涉及到二个核心的概念:问题和已知错误。
- 问题(Problem):多个有相同现象的事件或一个重大的事件,并且存在某个未知原因的错误的情况。
- 已知错误(Known Error):已经成功诊断问题的根源,找到解决方案的情况。
一个问题有几个触发条件,或者说有哪几个应用场景呢?有以下几个:
(1)同一个事件反复发生。这就意味着之前的事件的解决可能只是临时解决,没有找到根本原因、解决方案。
(2)同一个现象多次发生。这类就是可能是同一个系统、同一类设备,其现象相同或者相似。
(3)重大事件发生。这类往往对业务产生了重大影响,这