“智能运维”闯关秘籍

本文介绍了智能运维的六个发展阶段,从人力运维开始,逐步升级到完全智能化运维。企业通过实施动环监控、网络质量监控、日志分析等工具,构建监控体系,再通过流程规划、数据治理、AI算法应用,不断提升运维效率和自动化程度。最终目标是实现无人值守、故障自愈的完全智能化运维状态,以分钟甚至毫秒级的MTTR保障业务连续性。
摘要由CSDN通过智能技术生成

关注云报

洞察深一度

这是一款考验闯关者硬实力的新“游戏”

——“智能运维进阶战”!

但其设计并非天马行空,

而是“游戏设计者”

——云智慧,

在其首创的

“智能运维分级成熟度模型”

上的演绎和模拟。

作为闯关者,

企业将经历六关,

通过学习、积累、实践,

最终将达成智能运维的目标!

5e171bcd8d76728c67a4ed0c7b9bd7df.gif

游戏准备!

在数字化、智能化时代,IT运维正从手工操作走向完全自动化,从传统运维流程化管理走向智能化。“运维+智能”将是一场革命。然而,由于智能运维在实际落地过程中尚缺乏统一认知和框架指导,致使各行各业的智能运维发展程度千差万别,水平参差不齐。

在智能运维发展的初期阶段,如何将新技术与管理方法论相结合,对数据进行有效治理,从而提升生产与运营的效率,充分发挥智能运维的效能,成了各行业数字化转型亟待解决的问题。

国内首个“智能运维分级成熟度模型”,作为一项事实上的标准,不仅可以为企业IT迈向真正意义上的智能运维提供最佳实践参考,还可以帮助企业中的IT人员更好地了解和评估企业在运维方面所处的阶段,以及面临的挑战和问题,从中找到解决问题的根源,从而持续提升运维和IT管理效率。

通过了解“智能运维分级成熟度模型”,将加深企业对智能运维的理解和认知,更好地掌握与智能运维相关的技能和工具,从而实现运维的智能化。

现在,就开始闯关吧!

第一关

Level 0:人力运维

闯关任务:

当前的数据中心、动环系统、硬件设备、操作系统、中间件、数据库、日志、网络服务、应用性能等缺乏监控工具和手段,需要专业的工具实时监控并发现异常或故障,并能及时报警;服务长时间中断,且响应慢,恢复时间不确定;将以天为单位的应用平均故障恢复时间(MTTR)缩短至小时级。

闯关过程:

1. 实施动环监控:通过各类传感器和设备本身的监控接口及协议转换,实现电力、温度、湿度、漏水等实时监控,通过流程和3D可视化管控机柜空间、监控使用情况。

2. 监控网络质量:通过网络流量和深入分析,实现网络服务层及应用会话性能监控,改善网络和应用的可用性。

3. 监控日志:基于大数据技术与智能算法,实现PB级多源、离散日志的统一采集、处理、存储与查询分析。

4. 监控基础设施:全局掌控基础设施、操作系统、数据库、组件的运行状态,实时保证资源正常运行。

5. 监控应用性能:追踪性能问题,快速定位应用缓慢、错误和异常,确保业务质量。

经验参考:

某国有企业,故障投诉多,设备管理混乱,设备故障没有管控工具,排查故障以人工方式为主,依赖个人经验,效率非常低。

采用基础网管工具、应用性能监控工具和日志分析工具后,实现了IT硬件的集中管理、故障发现和告警等,实现了应用系统的代码级故障定位和详情获取,大大提高了故障排查效率。

闯关结果:

从动环、基础设施、网络服务、应用性能、涵盖从业务到基础设施的各个监控层面,帮助企业构建从技术到业务的完整的监控体系;从依赖人工、手动、经验,逐步向工具、脚本和标准转变;完成监控工具建设,补全工具短板。

6cfe493e081568c84e2264141e4530fc.png

第二关

Level 1:辅助运维

闯关任务:

当前,企业正从外向型业务创新向以技术驱动为特征的管理创新转变,同时管理方式也需要从粗犷式经营向精细化管理转变。在此背景下,企业需要继续提升IT的效能,以保证业务的长久稳定发展;应用平均故障恢复时间(MTTR)从小时级进一步缩减至一小时以内。

闯关过程:

1.“四划”——进行有效的组织架构规划、制度建设规划、流程建设规划、考核指标规划。

2. 从缺乏规划、分割管理的离散阶段,逐步过渡到建立数据集中处理应用中心,实现整体规划、专业运维,引入运维流程框架,通过流程实现跨部门的运维任务,贯穿各个专业部门并实现协同。

3. 满足多活和混合云环境要求,实现应用与基础设施的松耦合,以及资源服务化。

经验参考:

某大型制造企业在运维方面,存在故障处理效率低、追溯难、管理复杂和操作失误多等弊端。通过ITIL流程规划和ITSM系统工具实施,以及建立统一的IT运维服务台并采用自动化运维工具,实现了平台多入口和统一线上管理,提高解决问题效率的同时,推动了常规运维操作的标准化,降低了运维人员的学习成本。

闯关结果:

通过对组织架构、岗位角色、管理制度、流程、考核指标、运维工具的整合规划,实现了人与工具的有效结合,保证了服务交付的准确性、高效性;构建和优化IT运维管理体系。

de0b46ecc3e0e21b23b2b1486e7d7395.png

第三关

Level 2:一体化运维

闯关任务:

数据量和种类虽多,但离散,缺乏全局数据观;业务数据与IT数据管理缺乏关联,价值挖掘成本居高不下;监控手段比较丰富,但出现问题时仍难以快速定位;迫切需要实现运维数据治理,从数据噪音中快速定位问题的根源;应用平均故障恢复时间(MTTR)从一小时以内进一步缩减至分钟级。

闯关过程:

1.数据治理:归集数据、处理数据、建模数据、存储数据、数据接口服务化、数据应用场景化。

2.建立指标体系:梳理业务及IT指标集、IT应用层指标集、IT服务层指标集和IT组件层指标集等。

3.智能场景应用:监控IT资源健康状态,感知业务健康态势,监控业务健康度,跟踪展示业务流程,感知用户体验态势。

经验参考:

某大型地产企业数据繁杂,数据间缺乏关联性分析,且工具分散,用户体验差。

通过建设大数据运维中台,实现数据的统一归集、清洗、分析,实现数据接口标准化、数据场景服务化、业务运维自动化,从而进一步提升智能化能力,实现运营数据化,运维活动可见、可管、可控,保证业务系统安全、稳定、高效运行。

闯关结果:

   建立数据逻辑,明确指标意义,实现态势感知,初步实现智能运维。

afaf735eb3b78995011680da445c5264.png

第四关

Level 3:初步智能化运维

闯关任务:

虽然完成了数据中台建设,具备了一定的数据分析能力,但仍然缺乏对数据的有效利用,诊断能力、恢复能力、预测能力等均有待提升,需要使用人工智能和机器学习算法,对运维场景进行智能处理;应用平均故障恢复时间(MTTR)从分钟级缩短至秒级。

闯关过程:

1. 智能诊断:通过机器学习和智能算法,自动识别出不符合期望的数据并产生告警;基于异常检测,实现基于逻辑推理的诊断定位。

2. 智能恢复:通过实时海量数据处理、NLP非结构化数据识别、数据关系建立等方式,建立对故障场景特征的精准识别,精确调用相应的预设应急动作,完成业务的快速恢复。

3.智能预测:基于预测算法对时序数据进行学习训练,通过数据与业务的映射、关联、推理等方式,建立数据与业务的映射,从系统维度展现容量水位并进行趋势预测。

经验参考:

某国有银行卡中心虽然拥有近百人的IT运维和业务运维团队,但仍然存在告警消息多、告警准确度低、缺乏告警关联分析等问题,故障处理主要是以人工确认方式为主,效率低。

通过建设以算法和规划同时作用的监控体系,借助大数据、机器学习、智能算法等手段,对告警数据进行实时分析、预测,形成了业务拓扑和算法模型相结合的根因分析,提高了故障的发现、分析、诊断、恢复能力,并可通过自动化手段对故障实现初步的自愈服务,以及进行容量预测,以满足业务未来发展的需要。

闯关结果:

引入算法模型,实现决策智能;实现智能辅助根因定位、故障自动恢复等。

8524fee6d2d5e246fa7c7ae380394c44.png

第五关

Level 4:高度智能化运维

闯关任务:

持续保持业务流程的高效,以及算法的准确性,提升对问题流程和算法的识别速度;进一步简化自动化场景编排和算法调参,提升效率,降低成本;通过AI算法对业务场景故障进行预测;通过自动化实现自愈。

闯关过程:

1.自学习AI:强化学习、深度强化学习、自监督学习等前沿人工智能技术的应用,改进现有算法在各类运维场景中的应用。

2. 过程挖掘:过程挖掘技术有助于用户解决诸如过程发现、一致性检查和瓶颈分析等问题。通过以上问题的智能化处理,极大地帮助用户及时发现现有系统的问题流程,并根据建议进行针对性优化,甚至由系统自主优化/创建新的流程。

3.计算机视觉:结合计算机视觉、RPA等技术,使AI更加智能地模拟终端用户的桌面系统环境操作,覆盖更加广阔的运维场景。

4.机器人自动化:PRA技术能够模拟人与数字化系统的交互,通过RPA技术,在现有脚本和代码的基础上,实现更加简单、灵活、高效的自动化作业,覆盖更加广泛的业务场景。

经验参考:

某省政务服务数据管理局从业务办理场景入手,实现一网通办,同时理清了业务办理记录,实现了流程模型分析,可以更快地找到事项失败的情况,有效缩短事项办理时长,提高效率。

闯关结果:

自动化与智能化不断深入到各个运维/运营环节及业务场景中,充分利用流程挖掘、超自动化技术、人工智能化,提升效率的同时,降低维护成本。

8e99bf6e9637fffe16022987465c1e1f.png

第六关

Level 5:完全智能化运维

达到理想的自治状态,即无人值守、故障愈合、自主优化,可做到远程接管;应用平均故障恢复时间(MTTR)缩短至毫秒级。

45852c205c3812a18c4f07e11460b13b.png

如果一家企业能够连闯六关,

那么就将达到运维的最高境界

——完全智能化运维。

当然,

这还只是一种“理想”。

有闯关经验的企业一定深有体会,

从第三关到第四关的跨越难度较大,

即从一体化运维到初步智能化运维,

这是一次质的飞跃。

从手工操作到自动化,

从传统运维到智能运维,

乃至无人值守,

这一进阶的过程是必然。

认定目标,拿出闯关的勇气,

你一定行!

4c387b93db525018648ea1264bc524e1.png

“游戏”的背后

像是玩一款闯关游戏,企业将经历一次完整的智能运维的发展历程。因为“智能运维分级成熟度模型”的存在,企业的闯关历程明确而清晰:每一个阶段需要做什么?要达到什么样的目标?从技术到流程再到管理和人,都历历在目。

“智能运维分级成熟度模型”,是云智慧凭借多年服务中国Top 3000企业客户的数字化运维行业经验,在智能运维国家标准编制组指导下,同时参考了ITSS运维服务能力成熟度模型与Gartner关于AIOps市场指南的基础上提炼而成。

该模型从业务用户体验、运维组织管理、流程管理、工具应用、数据管理和应用平均故障恢复时间等几个维度,描述了每个阶段的运维管理特征,同时为每个阶段的演进提供了相应的关键提升手段。

每个企业都需要这样一种指引,有规划、分步骤、由低到高,积小成为大成,最终实现智能运维的目标。

90b31e7613d7f004d396dd5b97637e7b.png

欢迎扫码关注云报

7d3e680272b0a7da04a0f465139c6a8b.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值