方法论与技术栈双管齐下的运维可用性能力建设(四)

3工具建设辅助可用性能力的提升

以往讲运维工具体系,主要会从“监、管、控”三方面建设,随着规模不断增大,复杂度不断提升,从运维数据平台也尤为重要,详细的工具体系建设将在后续梳理。

本节先从被动式的事件集中管理场景与主动式的可用性分析场景的建设来看看提升运维的可用性能力:

1)事件集中管理场景:

前面提到的” 海恩法则“提到一个重大的业务可用性问题的出现,很可能己发生了多次事件,是一个量变的过程,所以,事件的有效管理在应用可用性能力建设中起到一个很重要的作用。

一个企业的业务系统要运行良好,需要保证一系列的软硬件设施的稳定运行,比如机房环控、网络设施、服务器设施、系统软件、数据库、中间件、应用服务,以及交易与客户体验层面等等因素都与稳定息息相关。在现实工作中,由于以下两个因素影响导致一个企业监控工具很多:

运维涉及的领域很多,没有哪一个监控工具能够做到一篮子解决方案,往往硬件厂商擅长硬件监控,软件厂商擅长软件监控,DBA擅长数据库监控,业务运维擅长业务监控、性能分析团队擅长性能体验监控等。

同类的监控也可能存在多套监控工具,一方面是由于同类监控的工具之间的功能也有优缺点差异,另一方面也有使用者的一些历史原因因素等;

基于上面监控工具多的问题,建立建立一个事件集中管理的场景工具,该工具具备以下能力:

事件汇总:数据层面汇总不同层次、不同专业条线、不同类型事件是监控集中管理的基础。可视化层面,提供统一的事件处理管理,提供多维的角色,整合应急操作工具等事件丰富的能力。

事件收敛:前面提到同一个故障会触发多类指标的告警,同一个指标在故障未解除前也会重复产生大量的告警事件,如果将全部事件都展示出来,那对于监控处理人员将是灾难性的,所以需要进行事件收敛。

事件分级:对于不同的事件需要有适当层次的事件分级,事件升级的策略。事件分级是将事件当前紧急程度进行标识显示,事件升级是对于低级的事件当达到一定的程度,比如处理时间过长,则需要进行升级。

事件分析:事件分析是建立事件的关联关系,关联分析可以从纵向和横向关系进行分析,纵向是指从底层的基础设施、网络、服务器硬件、虚拟机/容器、操作系统、中间件、应用域、应用、交易;横向是指从当前的应用节点、上游服务器节点、下游服务器节点的交易关系。事件分析是形成故障树,自愈的基础。

以下总结的事件整合场景的图片:

2)主动式的可用性分析场景:

基于运维数据的主动式的运维或运营分析场景的ITOA,它特别值得运维团队去建设,不过一方面有不少团队忽略这个工作方向,另一方面由于AI太热,很多团队基于这类ITOA的建设直接被缩小为AIOps,聚焦到了智能算法可以应用的场景:智能监控。

当然,我并不认为智能监控的场景建设不好,只是忽略了性能、可用性、运营等方面的运行分析,直接为了智能而智能的建设思路不太赞同。后续有专门一篇梳理运行分析的能力建设,这里暂不扩展。

宝企通IT服务作为智能化工单系统龙头,拥有多年优化SLA经验,能够有效提高员工对IT的服务满意度。是一款支持SAAS、本地化部署、源码交付的运维工单系统(SAAS免费试用,企业微信--工作台--添加应用,搜索“IT服务”,排名第一的就是)。目前是全网众多企业选择的工单类产品,支持手机验证码或账号验证,员工自助修改域账号密码,具备智能化派单模式工程师响应快减少员工等待时间。自定义知识库可提升工程师专业技能水平,帮助工程师迅速判断员工问题,极大提升员工报单体验。系统还能够大幅提升职能部门可以服务的用户数,有效降低专业人力成本开支,提高业务执行效率,展现工作成果。产品服务好能为用户免费开发个性化需求,连续多年被魔力象0评为leaders位置,市场占有率爆发式增长

  • 6
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值