selenium工具包含哪些组件_运维平台工具体系，包含哪些系统

最新推荐文章于 2023-05-10 18:22:10 发布

weixin_39913422

最新推荐文章于 2023-05-10 18:22:10 发布

阅读量100

点赞数

文章标签： selenium工具包含哪些组件系统运维包括哪些内容

这是在滴滴云技术沙龙上的分享的部分内容，讲述了滴滴的运维平台工具体系，总结到这里以备查阅，让我们一起看看互联网公司的运维平台体系，都包含哪些系统...

之前的文章《干运维的你得具备这些能力》中曾介绍运维部建设的平台，主要侧重于稳定性相关和生产环境管理相关，那下面我们分别从这两个视角来看：

稳定性视角

老生常谈了，我们会围绕故障全生命周期的各个环节，分别做优化来减少故障时长，所以每个环节，都建设了相关的平台。

预防：这个环节建设的是风险量化平台，来量化各个业务的稳定性风险，何为稳定性风险？比如监控不完备，会造成风险，对应的量化系统是监控健康分；比如预案不完备，经常执行失败，会造成风险，对应的量化系统是预案健康分；比如变更不规范，经常走紧急流程，经常回滚，检查时间偏短，会造成风险，对应的量化系统是变更信用分，诸如此类

发现：这个环节建设的是监控告警系统，包括常见的设备监控、网络监控，服务层面的调用链监控，来串联各个微服务，业务层面的监控，主要是存活监控、基线监控、日志监控、接口监控等

定位：这个环节建设的是各种辅助定位故障的大盘，平时巡检的时候也会经常看，比如灭火图，是把各个产品的核心业务指标组织起来，比如代驾、专快、顺风车、两轮车，每个产品一个灭火图顶图，点击顶图可以下钻，展示这个产品更细节的健康情况，比如按照模块拆分、按照业务核心流程的用户场景行为拆分；比如水位大盘，主要是看各服务模块的容量水位；比如事件大盘，是把线上各类监控事件、变更事件组织起来，变更事件包括服务变更、配置变更、数据变更、数据库变更等等；最后的接入层大盘，是指从nginx上采集的一些指标，我司内部服务大都使用nginx做api gateway，故而可以从nginx上采集到各个模块的延迟、请求量、成功率等黄金指标

止损：这个环节建设的主要是预案相关的平台，比如911预案管理平台，和监控、命令通道打通的故障自愈平台，域名切流是使用域名管理系统来做，变更回滚是使用发布系统来做，这些，都是我们的典型止损手段

复盘：这个环节建设的主要是故障管理平台，管理所有线上问题和故障，用于之后的统计分析，告诉我们哪些类型的问题频发，需要格外关注，哪些业务线稳定性比较好哪些比较差；另外就是管理故障遗留TODO项，这些TODO项的及时关闭对我们服务稳定性大有助益，平台会内置一些敦促提醒机制、提供统计数据

生产环境管理视角

这块我们主要从服务管理、线上环境管理的角度来看，围绕服务的生命周期，可以梳理出相关的平台：