第七章 运行维护
一、运行维护概述
1.基本概念
①信息系统运维
信息系统运维是指新建或升级改造类信息系统工程实施完成后的系统在完成其试运行周期后正式进入生产环境交付使用阶段的维护和保养工作
②运行维护服务对象
运行维护服务对象(简称“服务对象”) 是指信息系统工程建设项目交付的内容,主要包括机房基础设施、物理资源、虚拟资源、平台资源、应用和数据等
③服务级别协议(SLA)
运行维护服务级别协议(简称“服务级别协议”或“SLA”是指业主单位与运维服务提供方之间为约定运维服务内容和各项服务指标所签署的文件
④运维服务交付的内容
运维服务交付的内容通常包括例行操作、响应支持、优化改善、调研评估等
2.运行维护的发展历程
①发展历程
1.基于NSM的基础运维阶段
2.基于ITSM的集中运维阶段
3.基于BSM的业务导向集中运维阶段
②BSM的核心主要体现
BSM的核心主要体现为三个方面,即业务、资源配置及两者之间的关系:
①业务蓝图展现运维服务团队业务的构成情况
②资源配置蓝图展现一个运维服务团队及所有对象构成关系全景
③最终将业务蓝图与资源配置蓝图进行整合,可以动态展现当前信息系统的运行情况,并动态体现出其对业务支撑的相关运维要素及各类资源的情况和能力
3.运行维护服务发展趋势
①发展趋势
①新技术不断涌现
②运维服务模式转型升级
③自主创新能力进一步加强
②智能运维
1.智能运维是人工智能在运行维护领域的应用,更关注知识、数据、算法、算力的应用
2.智能运维具备的特征
①能感知②会描述③自学习④会诊断⑤可决策⑥自执行⑦自适应
3.智能运维是“数据驱动的运维”,极大地降低了运维成本,提高了运维效率
二、运行维护服务能力
1.运行维护服务能力模型
①能力
1.按照ITSS 体系要求,可以从人员、技术、过程、资源四个维度评价运维服务团队的能力
2.运行维护服务能力模型中提出了运行维护服务能力的四个关键要素:人员、技术、过程、资源,每个要素通过关键指标反映运维服务团队应具备的能力
②策划
1、在招标阶段,按照业主单位的服务需求、关键技术标准、行业相关标准和服务标准等要求,确定运维服务提供方,在签订运行维护服务合同时应明确的合同及 SLA 要点如下:
①运行维护合同条款包含运行维护服务期限、服务范围、服务内容、服务级别(例如SLA、人员投入、运行维护评估、付款节点、服务变更控制及奖惩条款等)②服务目录定义的完整性、文件的规范性、考核评估机制的有效性和完整性
③在运行维护合同中应明确要求运维服务提供方接受监理单位的监理
2、服务方案中包括的内容有:
①根据业务需求和管理要求,结合新技术、新模式等要求,策划运行维护服务对象的内容与要求,并形成项目级运维服务目录
②确定参与运维项目的相关方,建立项目管理制度,以支持服务目录的实现③运维服务团队识别出影响运维服务的相关因素,并依据项目级运维服务目录开展运维服务工作
④结合服务场景,对人员、技术、过程和资源进行策划,并保留运维项目交付过程中的工作内容等相关记录性文件
⑤建立相适应的能力指标体系,包括指标、度量方法、数据来源,以及评价方法等
③检查
1.业主对运行维护服务的过程和实施结果进行监控和评审,保证运行维护服务质量满足要求。具体包括以下内容:
①对服务绩效及能力水平进行评价,包含服务能力实施情况、各项指标达成情况、服务级别协议达成情况、业主单位满意度等
②参考法律法规及标准体系中适用的评价指标,如运行维护服务的安全性、可靠性、响应性、有形性等指标,以识别运维过程中的薄弱环节和潜在问题,以及与预期目标之间的差距,制定服务改进跟踪表以促进运维服务质量的持续提升
④改进
1.针对运行维护服务过程中发现的不足之处,运维服务提供方应建立运维服务持续改进机制,对业主单位不满意的情况、服务级别协议中要求了但运维团队未达成的指标进行调查、总结、分析,根据汇总的分析结果确定运维服务的改进措施及服务能力改进工作计划,并按照服务改进计划自行跟进运维服务交付过程,形成服务改进跟踪表,纳入运维服务项目绩效考核统计的指标数据
2.运维服务级别管理
①运维服务目录
1.运维服务提供方应首先识别和分析业主单位的运行维护服务需求,形成项目级的运维服务目录,具体要求如下:
①项目级运维服务目录的结构设计可参考GB/T29264《信息技术服务分类与代码》的要求
②梳理运维服务项目的服务对象,确定服务内容以及相关方
③运维服务提供方应对运维服务项目级服务目录的变更进行管控,当内、外部环境发生重大变化时,应该对服务目录进行修订
④组织项目相关方对修订后的服务目录进行评审,确保满足运维需求
②运维服务对象
1.运行维护的服务对象是信息系统工程建设项目交付的内容,主要包括机房基础设施、物理资源、虚拟资源、平台资源、应用和数据等
①机房基础设施:主要是指机房基础环境、安防系统、电气系统、精密空调系统、环境检测系统、消防系统,如高低压供配电系统、电源系统、照明系统、防雷与接地、空调系统、火灾自动报警系统、消防供水设施及消火栓系统、自动灭火系统、防烟排烟系统、防火分隔设施、应急照明与疏散指示系统、应急广播系统、环境和设备监控系统、安全防范系统、综合布缆系统等
②物理资源:主要是指网络、服务器、存储、终端、外设等硬件,如网络线路、路由器、交换机、防火墙、入侵检测、负载均衡、语音以及通信传输设备、通用计算服务器、人工智能服务器、小型机、大型机、磁盘阵列、磁带库、光盘库、台式计算终端、移动计算终端、输入输出设备、移动存储设备、通信设备等
③虚拟资源:主要是指网络资源、计算资源、存储资源等,如虚拟网络设备、虚拟链路、虚拟机网络、虚拟机、虚拟机宿主机、虚拟存储卷、存储控制器、存储链路等
④平台资源:主要是指支撑应用系统运行的基础软件,如操作系统、数据库、中间件等
⑤应用:主要是指面向各类应用的软件系统,或者应用于运维服务管理的工具软件,如财务软件、人力资源管理软件、办公自动化软件、监控软件、流程管理软件、安全分析软件等⑥数据:主要是指业务数据、运维数据、安全数据等,如业务数据包括信息系统采集、分析并存储的各种信息载体等,运维数据包括运行维护过程中产生的各类运维信息,运行状态日志、故障处理文档等信息,安全数据包括在业务运行和运维过程中与安全相关的数据
③运维服务内容
1.运行维护服务根据其工作目标、工作内容、交付结果分为四大类,包括调研评估、例行操作、响应支持和优化改善
①调研评估。对运行维护对象的运行状况进行分析和评估,并提出方案建议
②例行操作。具体包括:监控、预防性检查、常规作业
③响应支持。具体包括:事件驱动响应、服务请求响应、应急响应
④优化改善。具体包括:适应性改进、增强性改进、预防性改进
3.人员
①组织架构
①识别职能的设置与调整需求:
②制定职能设计方案并落实
③职责不清或需要协同处置的,运维服务提供方要同步制定和落实协同方案
②岗位职责
①管理岗的岗位职责
②技术岗的岗位职责③操作岗的岗位职责
③人员储备
1.为了保证有足够的运维人员,以满足当前和未来的运行维护服务需求,运维团队在运维服务项目启动前,需要建立起与运维服务相关的人员储备计划和机制。具体如下:
①根据信息系统运维业务发展的需要和岗位聘用要求,确定运维服务人员储备的需求时间与机制
②根据储备需求和运维服务人员现状,选拔符合要求的运维人员,或制定招聘计划招聘人员
④人员培训
运维服务提供方根据运维服务需求,建立与运行维护服务相关的培训计划,在制订培训划时应识别培训要求,并提供及时和有效的培训。具体如下:
①建立与运维服务对象和服务内容相关的培训与考核机制
②通过分析运维服务相关方人员的岗位职责要求和人员技术能力现状,确定培训需求③按运维项目的服务对象、服务内容,结合培训需求,制订培训计划
④按照培训计划执行培训,并对培训效果进行评价,评价方式包括考核、调查和验证等
⑤绩效考核
运维服务提供方需要建立与运行维护服务相关的绩效考核体系或机制,并有效组织实施。具体如下:
①建立与运维服务相关的绩效考核体系或机制
②应结合绩效管理,根据岗位履职情况对人员使用进行评价,并明确奖惩规则,评价方式宜包括考核、沟通和调查
4.资源
①运维工具
需要考虑的要素包含:
①运维服务流程管理工具
②运维监控工具
③专用工具
②备品备件
具体要求应包含以下几个方面:
①制定备件库管理规范,包括备件响应方式和级别定义、备品备件的数量和类型、类别与编码、存放环境,以上内容均能够满足SLA 所要求的备件支持
②制订备件采购计划或方案,包括采购流程、库存策略、紧急采购预案等
③制定出入库制度,包括送货、验收、入库、出库等的流程并实施,做好日常管理的记录,并定期形成报告
④制定备件的检测、报废制度,并按照制度定期对备件状态进行检测,对国家强制规定检定的设备须有专业机构的检测报告
③服务台
1.服务台负责在各时间段,提供给用户或服务人员利用电话、邮箱、即时通信、网络或其他自动化手段,针对发生的事件、用户请求、变更等讲行交流的途径
2.服务台是运维服务团队的重要组成部分,为用户和服务人员提供联络手段的同时,使用专门的工具进行记录并管理相关内容
④知识台
运维服务团队应对运行维护工作相关的经验进行积累,形成可在运维团队内共享、可重复使用的知识和信息
三、运行维护服务交付过程
1.运行维护服务交付过程
运行维护服务交付过程包括运维服务需求识别、运维服务交付内容、运维服务交付方式等内容
2.运维服务交付内容
①调研评估
运维服务提供方通过对信息系统的运行现状和未来预期进行调研、分析,根据业务需求,提出运维服务方案。运维服务方案的主要内容如下:
①需求的调研、评估和服务方案的制定
②系统版本管理方案的制定
③需求变更方案的制定与评估④软件升级方案的制定与评估
⑤系统优化方案的制定与评估
⑥重大配置变更评估和方案的制定
⑦系统迁移需求的调研、评估和方案的制定
②例行操作
按照约定的触发条件或预先规定的常态服务,运维服务提供方对信息系统的例行操作一般分为监控、预防性检查和常规作业
①监控。采用各类工具和技术,对系统的功能、性能和稳定性等运行状况和发展趋势进行记录、分析和告警
②预防性检查。包括功能检查、性能检查和安全性检查等
③常规作业。定期对基础环境、硬件、软件、服务安全和健康状况等进行定期巡检,具体包括:a对网络及其他硬件设备的运行状态进行检查
b对系统磁盘状态、CPU 状态、进程、内存的使用情况进行巡检
c对各项服务及服务器运行状态进行检查
d对组件进行自查
e通过相关运维工具的功能页面检查服务是否正常
f对系统操作行为进行记录备案,定期检查系统调用访问日志g检查服务运行健康情况,包括服务URL是否可以正常访问、服名是否正常运行
h定期对系统接口进行测试与自查;
i定期对软件系统进行自查。
③响应支持
根据运维的需要或服务相关方的请求,运维服务提供方对信息系统的响应支持工作一般包括:应用级启停、系统级启停、用户注册、权限配置、更新驱动、用户口令重置、参数调整、系统配置、故障处理
④优化改善
运维服务提供方对信息系统的优化改善工作包括:
①对操作系统、数据库、应用服务器中间件等的集成性优化②优化系统参数、配置文件,更新系统错误或性能更新包
③对现有系统进行功能更新,应用系统升级
④对客户端错误或已知漏洞进行修复
⑤对性能和可靠性进行优化改善
⑥对业务逻辑、符合度的优化改善
⑦对应用服务能力进行优化,如对应用进程数、应用线程数的优化
⑧应用日志级别及日志空间的调整
3.运维服务交付方式
包括现场交付、远程交付
4.运行维护应急管理
运行维护应急管理包括建立应急管理制度、规范应急响应组织、制定应急响应预案、组织培训并开展应急演练、应急响应工作总结等内容
①建立应急管理制度
业主单位负责制定应急响应制度,明确应急响应的目标、原则、范围及各项管理制度。具体要求如下:
①应急管理制度要遵循统一领导、分级负责、预防为主、快速响应的原则
②与相关利益方就应急响应制度达成一致
③定期对应急响应制度进行评审
④在组织战略、业务流程、客户要求等发生重大变化时调整应急管理制度
②规范应急响应组织
在日常运行维护交付工作的基础上建立应急响应组织,应急管理组织架构由运维项目相关单位组成,包括业主单位的信息化主管部门、信息系统的运维服务提供方、运维服务执行单位等。具体要求如下:
①实行统一领导,分级负责。在业主单位信息化主管部门的统一领导下,建立“分级管理,分线负责”的应急管理制度,各司其职、各负其责,应充分发挥应急响应的指挥协调作用
②规定运行维护服务及应急响应相关的所有人员角色及职责,至少应包括应急响应责任者、运维现场负责人、分组负责人、值班人员等,并为关键角色提供备份人选
③与相关单位就应急响应服务的范围、要求等达成一致,确定沟通流程和方式,并形成记录
④如果应急组织内的人员发生变更,应及时与相关单位进行通报并记录
③制定应急响应预案
结合信息系统现状和要求开展风险评估,从技术和管理等方面确定风险要素,制定应急响应预案,主要包括以下内容:
①对风险要素进行评估,形成风险评估报告,并对识别的风险形成应对措施
②根据风险级别制定相应的应急响应预案
③应急响应预案可以分为总体预案和针对某个核心系统的专项预案
④应急响应预案的格式应该能够为应急响应组织进行系统恢复操作提供快速明确的指导
⑤应急响应预案要清晰、简洁,易于在紧急情况下执行,可使用检查列表
⑥应针对应急预案定期开展培训,至少每年举办一次
④组织培训并开展应总训练
为检验应急响应预案的有效性,同时使相关人员了解运行维护预案的目标和内容,熟悉应急响应的操作规程,运维服务团队应进行应急演练,具体执行工作应包括:
①制订应急演练计划、演练脚本
②对应急组织人员进行培训,讲解应急演练预案、应急演练计划和脚本
③对应急演练的整个过程进行详细记录,并形成报告
④要保证应急演练的过程不影响业务的正常运行
⑤应急响应工作总结
运维服务团队定期对发生的应急事件和应急响应工作进行分析与回顾,并总结经验教训。具体包括:
①对应急响应工作的分析和回顾应形成总结报告,并将总结报告作为改进应急响应工作及信息系统的重要依据
②应急事件总结、应急工作审核的结果应该作为应急准备阶段各项工作的改进要素
③组织应根据总结报告中给出的建议项和评审结果完善信息系统,深化应急准备工作

被折叠的 条评论
为什么被折叠?



