西格玛质量管理平台是平台业务中心技术服务提升部运营的质量门户平台,目前平台主要覆盖事件管理、缺陷管理、上线管理、接入审核管理及知识库五个模块质量管理。其中事件管理是质量平台最早的运营的模块,也是目前发展最为成熟的一个模块,今天我就来给大家介绍一下事件管理的发展演化历程。
西格玛事件管理本质是问题管理,是质量管理最基础的一个分类。事件管理发展演化总结起来主要是:标准-流程(组织)-平台,标准是事件管理的基础,定义了事件管理应该遵循的原则、目标。事件管理组织和流程是实现事件管理目标的前提和手段,而随着管理流程持续发展,对数据和效率的需求进行了工具化平台建设。“标准”是事件管理发展演化的源动力,每一次事件管理的升级几乎都是源自于事件管理标准的调整。标准升级后,带了新的要求和变化,随之而来需要对流程进行相应的调整,同时工具平台为了适应流程变化,也要进行优化完善。
基于以上事件管理发展思路,回顾西格玛事件管理发展历程,可以总结为三个阶段:
阶段一:事件管理从0到1事件管理从0到1,制定单一事件分级标准(系统问题),QA负责事件感知、登记、跟进、复盘全流程工作,事件感知渠道单一,事件数据线下登记。这一阶段的主要任务是建立了基础的事件管理的框架,通过标准能够识别出较严重事件,事件有数据记录。存在的问题也很明显,事件感知渠道单一加上标准单一,导致只能覆盖部分较严重的系统事件,例如影响订单类事件、发版类事件、网络类事件等;另外数据线下登记,非常不方便查询共享,数据使用价值大大降低。
阶段二:事件管理升级事件分级标准升级,能够识别线上各类问题(系统问题、配置问题、网络问题、体验问题等),流程方面覆盖更多事件来源渠道,包括内外部用户反馈、监控告警、IT服务台等,建立事件分析报告机制。开发事件管理线上平台,事件登记、跟进、解决、关闭线上数据可视化,提高数据透明度和使用便捷度。阶段二的主要价值在于建立了一套闭环的基于ITIL原则的事件管理流程。随着第二阶段的持续运营,此时面临的主要问题有跨大部门的事件管理存在壁垒,其他大部门的团队也有事件管理闭环的需求,平台无法满足。
阶段三:时间管理成熟在事件标准、流程、渠道、平台不断优化的基础上,重点对事件管理标准流程、事件管理组织架构以及工具平台进行升级。首先将原有事件管理标准规范结合长期运营经验整合事件处置规范、事件奖惩规范整合为事件管理规范集,并覆盖到主要事业部,扩大标准使用范围,加强事件管理责任(奖惩)落实;然后在规范集的基础上建立覆盖各事业部及前中台的虚拟事件管理组织架构,建立事件接口人角色,并融入事件管理流程中,打通事件管理部门之间的壁垒并赋能更多团队;随着更多部门参与到平台事件管理中,对工具平台也提出了更高的要求,基于此对事件平台进行了重构,实现事件管理的平台化,可以为不同闭环组织使用,同时平台自身不断优化,通过邮件、咚咚加强事件跟进效率,通过标签、自定义分类提高个性化登记的需求、通过自定义报表提供快速的数据分析。
目前平台事件管理发展在第三个阶段,在运营过程中也发现一些问题,也为下一阶段发展提供方向:
事件管理的溯源管理事件管理目前重点的是线上事件结果的分析和改善,侧重于事件后端管理,从事件管理更高目标来看,是如何减少事件的发生,这需要对事件加强源头管理、上游管理。事件的上游包括很多阶段,概括有运维、发布(配置)、灰度、测试、开发、需求这些阶段,事件溯源管理就是要加强这些阶段存在问题的提前发现能力,已经规划了一些计划,如在发布(配置)阶段加强变更操作的规范化,在开发阶段及加强代码review机制,需求阶段通过提高评审规范化确保评估质量等,另一方面也计划将事件平台同上游的平台进行数据打通,从数据维度分析事件上下游当中存在的关联并通过定义一些度量指标来推动事件上游质量提升。
事件标准的持续完善事件的核心分级标准从1.0发布至今已经经历了4个小版本和1个大版本的修订。标准的持续修订是事件管理的一项重要内容,修订的内容始终跟着业务发展需求进行调整,不断完善。例如随着直播带货在零售平台的兴起,针对直播这个特殊场景需要事件标准完善其相关内容,另外一直以来对于用户体验类型的问题分类分级也是一个难题,体验问题存在较强主观因素,如何从主观感受中分离出相对客观可量化的标准已经积累了一些经验,比如通过客诉、影响用户量、影响时长、问题是否立即修复等指标判断事件严重程度。这块的标准在现有基础上还需要持续完善。
平台效率的提升在事件管理的运营中我们建设了西格玛事件平台,效率始终是平台追求的重要目标。效率提升重点是两块内容,一个是将管理流程和平台完美融合,平台能够适配管理流程的各种功能需求和异常情况,做到线上全面管理和数据全覆盖;一个是通过分析管理流程中效率痛点进行针对性工具优化,例如同监控系统联动自动建单、系统自助报告、事件跟进自动工作流、事件统一源管理等。
事件管理发展中遇到的典型问题:
1、事件管理覆盖的事件渠道有哪些,怎样确保渠道内的事件都得到高效处理?
平台事件管理重点是主站APP的线上事件,同时其他平台事件通过质量接口人流转信息。对于主站APP的事件,平台质量建立了多种渠道确保覆盖全面,如下图:
1)线上用户反馈渠道。用户反馈信息首先通过AI系统进行自动分类然后交由客服过滤,主要是准确区分客服级问题和产品级,然后对于过滤出来的产品级问题再由专业的用研团队进行处理,将其中系统问题流转到平台质量,最后由平台质量进行跟进解决。这种多团队协作机制每一层都由最专业的人员处理,确保问题可以得到高效的处理;除此之外我们还利用工具平台对线上反馈数据进行分类后的报警,一些短时间大量反馈的线上问题可以及时感知并得到处理。
2)IT服务台。我们也同IT服务台建立事件流转机制,从客服过来的系统问题可以直接流转到平台质量这边得到及时处理。
3)平台内部测试研发运维事件反馈机制。事件处置规范要求研发体系各团队发现问题要及时反馈给质量人员,此类问题一般是通过各类监控系统发现。
4)内部员工反馈。内部员工包括公司各类岗位,不仅是研发体系人员,还包括运营、采销、职能、物流等体系人员,反馈问题的来源不仅是内部员工发现,也包括内部员工亲属、朋友发现的问题等。这类反馈一般通过内部问题群反馈出来。
5)舆情热点反馈。同舆情团队建立热点问题反馈机制,及时发现舆情问题。
2、事件管理的主要流程有哪些?
主要流程包括:事件分级、事件响应、事件周知及上升、事件处置时效、事件登记、复盘、改善。
3、事件改善怎么管理的?
在每一个事件复盘中,除了对事件原因进行详细说明外,重点是找到避免类似问题的改善措施,每一条改善措施都会登记到系统中,包括内容、负责人、类型和计划完成时间,便于持续跟进改善的完成情况。当改善措施完成后,需要改善负责人提交改善交付物并最终确认完成。
4、事件管理有哪些需要重点关注的指标?
事件管理的主要指标有:严重事件占比、事件解决率、事件关闭率、事件解决时效、逃逸率、月度事件质量等。
5、团队也有自己的事件管理,但是量级比较小,目前是线下管理的,怎么样接入西格玛事件管理?
西格玛事件管理平台该平台(http://sqm.jd.com)可以适合各类闭环团队事件管理需求,有需求的团队可以在平台建立单独的事件域进行事件管理:
不同的事件域之间操作权限完全隔离,确保数据安全。
不同事件域可以根据需要在一个可选的事件字段范围内按需配置。事件管理平台支持最多31个固定和可选字段按需配置。
不同事件域的同一个字段可以根据需要配置不同的字段内容。
事件数据分析基于每一个独立的事件域进行。
如有平台接入需求,请联系liqing1@jd.com咨询。