方法论与技术栈双管齐下的运维可用性能力建设(二)

2业务连续性管理

站在业务角度看,信息系统的运维可用性能力建设,可以转化为业务连续性的管理,行业里的业务可用性管理比较标准的是BCM,以下是百度百科对BCM的定义:

业务连续性管理(Business Continuity Management,简称BCM),是一项综合管理流程,它使企业认识到潜在的危机和相关影响,制订响应、业务和连续性的恢复计划,其总体目标是为了提高企业的风险防范能力,以有效地响应非计划的业务破坏并降低不良影响。——百度百科

以下从互联网下载的一张关于BCM的整体解决思路,从中可以看出业务连续性管理涉及到方方面面。

从上图可以看出BCM的方法论是一个体系化的业务连续性管理,从灾难恢复,风险管理,应急管理等维度进行分解,其中多个行业都提出相应的业务连续性管理指引:

这其中,银监会于2011年发布的《商业银行业务连续性监管指引》在多个角度进行规定:

上述的指引是体系化的连续性管理,己超出我当前的分析梳理能力,有兴趣的同学可以找找具体的指引、BCM方法论细读。

3Google SRE的可用性保障

关于Google SRE的理解在之前梳理的文章中做了一些总结,以下仍引用那篇小文中的理解:

SRE这个名词最早是从《Google SRE运维解密》一书中获得,全称是Site Reliability Engineering,翻译过来就是:站点可靠性工程师。Google对SRE的职责描述为:确保站点的可用,为了达到这个目的,一方面他需要对站点涉及的系统、组件熟悉,也要关注生产运行时的状态。

为此,他需要自开发并维护很多工具和系统支撑系统的运行,比如自动化发布系统,监控系统,日志系统,服务器资源分配和编排等。SRE是一个综合素质很高的全能手,如果对他的能力进行分解主要有三块:

熟悉系统架构与运行状态:SRE需要懂服务器基础架构、操作系统、网络、中间件容器、常用编程语言、全局的架构意识、非常强的问题分析能力、极高的抗压能力(以便沉着高效地排障),他们还需要懂性能调优理论。为了保证系统架构的高可用,SRE甚至会有意识的破坏自己的系统,以提高系统可用性。

熟悉运维涉及的管理方法:SRE需根据企业自身发展需要,清楚运维涉及的各项工作的流程方法论,比如故障处理、应用发布、可用性管理等等,SRE十分重视运维流程的持续改善,比如对故障的追丁溯源,怀疑一切的方式持续改进。

运维开发+产品经理:SRE在运行保障过程中的手段更加自动化,更高效,这种高效来源于自动化工具、监控工具的支撑,且他们还需要是这些工具的主要开发者,他们要不断优化和调整,使整个工具箱使起来更加得心应手。为此SRE有一个50%的理念,就是50%用于日常保障,50%用于项目性的工作,这个项目性的工作主要体现在运维开发与运维产品经理的角色。

总的来说,BCM更关注于从管理层面可用性能力建设方法论,而从Google现有的分享来看,Google SRE更关注于技术层面的可用性能力建设,两者都值得我们在可用性能力建设中借鉴,以下仅从一个局部梳理我理解的可用性能力建设的一些方面。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

  • 6
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值