selenium工具包含哪些组件_运维平台工具体系,包含哪些系统

这是在滴滴云技术沙龙上的分享的部分内容,讲述了滴滴的运维平台工具体系,总结到这里以备查阅,让我们一起看看互联网公司的运维平台体系,都包含哪些系统...

之前的文章《干运维的你得具备这些能力》中曾介绍运维部建设的平台,主要侧重于稳定性相关和生产环境管理相关,那下面我们分别从这两个视角来看:

稳定性视角

ed8cce8c580bf64bbaff324a86c56a82.png

老生常谈了,我们会围绕故障全生命周期的各个环节,分别做优化来减少故障时长,所以每个环节,都建设了相关的平台。

预防:这个环节建设的是风险量化平台,来量化各个业务的稳定性风险,何为稳定性风险?比如监控不完备,会造成风险,对应的量化系统是监控健康分;比如预案不完备,经常执行失败,会造成风险,对应的量化系统是预案健康分;比如变更不规范,经常走紧急流程,经常回滚,检查时间偏短,会造成风险,对应的量化系统是变更信用分,诸如此类

发现:这个环节建设的是监控告警系统,包括常见的设备监控、网络监控,服务层面的调用链监控,来串联各个微服务,业务层面的监控,主要是存活监控、基线监控、日志监控、接口监控等

定位:这个环节建设的是各种辅助定位故障的大盘,平时巡检的时候也会经常看,比如灭火图,是把各个产品的核心业务指标组织起来,比如代驾、专快、顺风车、两轮车,每个产品一个灭火图顶图,点击顶图可以下钻,展示这个产品更细节的健康情况,比如按照模块拆分、按照业务核心流程的用户场景行为拆分;比如水位大盘,主要是看各服务模块的容量水位;比如事件大盘,是把线上各类监控事件、变更事件组织起来,变更事件包括服务变更、配置变更、数据变更、数据库变更等等;最后的接入层大盘,是指从nginx上采集的一些指标,我司内部服务大都使用nginx做api gateway,故而可以从nginx上采集到各个模块的延迟、请求量、成功率等黄金指标

止损:这个环节建设的主要是预案相关的平台,比如911预案管理平台,和监控、命令通道打通的故障自愈平台,域名切流是使用域名管理系统来做,变更回滚是使用发布系统来做,这些,都是我们的典型止损手段

复盘:这个环节建设的主要是故障管理平台,管理所有线上问题和故障,用于之后的统计分析,告诉我们哪些类型的问题频发,需要格外关注,哪些业务线稳定性比较好哪些比较差;另外就是管理故障遗留TODO项,这些TODO项的及时关闭对我们服务稳定性大有助益,平台会内置一些敦促提醒机制、提供统计数据

生产环境管理视角

这块我们主要从服务管理、线上环境管理的角度来看,围绕服务的生命周期,可以梳理出相关的平台:

e1fe84ad50479768fe40069f441891e9.png

环境管理:主要是裸金属管理、跳板机管理、机器初始化系统,部分系统是系统部做的,部分是运维部做的,这几个系统主要侧重于机器环境管理

编译打包:持续集成相关的工具平台,比如编译系统、代码质量检测系统,编译之后的产物存入制品库,或者是直接做成镜像,毕竟,我司很大部分服务都上了容器云

变更发布:典型的是服务二进制的日常发布,物理机、虚拟机、容器三种场景我们统一成了一套发布平台,除此之外,还有配置变更发布平台,数据分发平台,数据分发主要是分发大文件,使用一些类似P2P的机制

服务治理:服务在线上跑了,就涉及一些治理类系统,比如名字服务、限流熔断流控之类的,服务的日志使用统一的日志存储中心和日志监控平台,另外业务也可以不通过日志直接内嵌SDK来吐出一些监控指标

流量接入:这块相关的平台主要是四层、七层的接入管控系统,四层我们使用LVS那套体系,七层使用nginx,另外域名管理系统姑且也划归到这个分类下

主要的平台都可以用上面两张图概括,里边部分是运维部构建的,部分是兄弟部门构建的。除了这两个视角看到的平台,还有一些效率提升相关的,比如CRON管理平台、集群管理的命令通道、任务工单工作流、与内部IM结合的机器人践行chatops等等,不一而足。

上面介绍的所有系统,都可以对外商业化输出,如果贵司有兴趣,欢迎联系散兵,这个社会,我们喜欢双赢的合作:)

f8c6af69bcdd7bf27b75381c2925c26b.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值