直达原文:ITSM流程落地经验之问题管理 

在很多IT组织中,大家工作的重点往往专注于解决事件,但长期专注于此,会出现疲于应对的现象,例如事件数量居高不下,工程师焦头烂额疲于奔命。长此以往会使问题的数量持续增加,持续未解决的根本原因会导致更多事件。如果IT组织希望有效开展问题管理流程,同时兼顾事件管理,那在两者之间需要找到平衡点。

问题管理如何发挥作用

问题管理的唯一目标是识别并消除重复发生事件的根本原因。在无法预防事件的情况下,问题管理力求将发生的事件对业务的影响降至最低。

如果只关注“如何快速找到问题并恢复服务”,那并没有进行问题管理,而是进行了事件管理,事件管理的核心目标是快速恢复服务。而问题管理是一个完全不同的流程,主要分为被动式和主动式两种类型。

被动式问题管理是从事件中被动触发的,许多IT组织会对重大事件进行事后审查,当发现存在潜在问题时,就会开展被动式问题管理工作。

主动式问题管理是使用数据趋势和历史信息识别潜在的问题,可以是持续开展服务改进的活动,也可以是适当地使用数据进行分析,甚至简单依靠积累的经验和直觉。

无论是哪种方式,问题管理都需要根据对业务的价值定义优先级。例如使用“业务影响分析”等方法,可以识别出优先解决哪些问题可以给业务带来更高的价值。

不同规模的组织如何构建问题管理

IT组织构建问题管理应根据IT组织的规模大小进行区别化设计,确定一个IT组织问题管理流程的模式应该考虑以下几个因素:

  • 运维人员的数量
  • 基础设施的数量
  • 基础设施的稳定性
  • 重复事件的数量

如果无法有效衡量,可以参考以下内容:

ITSM流程落地经验之问题管理_事件管理

小型组织的问题管理

小型组织的问题管理通常不单独设置流程经理,主要通过定期的例会讨论问题管理相关的内容。会前,建议各领域的负责人基于上一周期的工作记录,归纳汇总各自领域内最为关键的几个问题,并将这些问题在会上讨论并确定后,在下一个周期进行调查处理和解决。

中大型组织的问题管理

在中大型组织中,涉及的业务领域较多,通常采取统一的问题管理模式,在这种模式下,重点在于找出解决方案并实施。主动性问题管理通常会定义问题来源的多种方式,例如,在某个特定阶段,频繁触发的监控告警、用户频繁反馈的重复事件或重大事件、日常巡检中发现的潜在问题,以及偶然间发现的业务流程或服务中的关键缺陷。这种模式下,通常会由问题经理进行定期收集、汇总、协调解决和跟踪。

除了以上提到的问题构建方式以外,在日常运营中,还应该注意以下细节:

  • 主动健康检查,通过周期性健康检查,分析应用系统的运行情况,主动发现问题预防重大事件的发生和消除系统隐患;
  • 对发现的问题进行持续跟踪处理,向相关人员定期汇报问题解决进展;
  • 由问题经理或系统负责人持续优化健康检查的方法以及发现的问题和处理进展。

如何做好问题管理

区分事件和问题以及管理职责

在前边的内容中提到,事件和问题管理的目标并不相同,事件管理的重点是及时处理事件恢复服务;而问题管理则更侧重于预防性的措施,旨在识别和消除可能导致事件或其他不利影响的潜在问题。通过清晰地区分这两者,IT团队可以转变其工作模式,从被动地应对突发状况,转变为积极主动地寻找并消除潜在的风险隐患,从而提升整体的服务质量和稳定性。

同样对于事件经理来说,重点是快速解决事件,而问题经理的目标是预防。通过结合这两个角色的共同努力,可以从根本上提升应用系统的连续性和可用性。

充分分析问题

问题的分析方法有很多种,组织可以考虑在不同的场景下使用不同的方法,达到快速有效的问题分析。以下是在不同场景下的分析工具:

ITSM流程落地经验之问题管理_问题管理_02

5WHY示例:

ITSM流程落地经验之问题管理_流程管理_03

鱼骨图示例:

ITSM流程落地经验之问题管理_ITSM_04

以结果为导向

许多IT组织在问题管理活动中往往过于关注问题的数量和解决时间,然而这些并非衡量问题管理成效的核心标准。真正有效的问题管理应当通过两个关键维度来衡量:一是问题管理的关键绩效指标,二是问题管理对业务运营的实际影响。可以参考以下示例:

ITSM流程落地经验之问题管理_问题管理_05

发挥已知错误数据库的作用

这一观点也是知识管理的建议,为不同的团队提供问题的已知错误数据库的权限,以及相关的解决方案。这种方式可以让团队之间相互学习,节省事件和问题的处理时间,让整个组织保持高效运行。

结语

通过实施有效的问题管理,IT组织不仅可以从根本上解决反复出现的事件,还能显著提升服务的稳定性和客户满意度。区分事件管理和问题管理的职责,利用适当的分析工具,如头脑风暴、5WHY和鱼骨图,可以更快速地找到问题根源并采取有效的预防措施。定期审查和利用已知错误数据库,进一步增强问题管理的效果。最终,问题管理的目标是通过持续改进,实现IT服务的高效、可靠和可持续性。

直达原文:ITSM流程落地经验之问题管理