系统稳定性方法论 - 提感知、快响应、做复盘

最新推荐文章于 2022-01-18 18:09:11 发布

IT Panda

最新推荐文章于 2022-01-18 18:09:11 发布

阅读量1.6k

点赞数 1

分类专栏：架构 | 编码 | 设计模式沉淀 | 方法论文章标签：稳定性架构方法论监控复盘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ilfrost/article/details/116828941

版权

架构 | 编码 | 设计模式同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

沉淀 | 方法论

4 篇文章 1 订阅

订阅专栏

之前在<系统稳定性方法论>中提到了稳定性建设的四大抓手，在<降发生>之后，今天来说一说其余的三点 提感知、快响应、做复盘

提感知

何为"提感知"

提感知指的是：对于已经出现问题，能够及时且精准的进行告警，提升对异常的感知能力

如何"提感知"

对异常的感知主要分为：被动接收 与 主动发现 ，抓手是 监控 & 告警

监控

首先要明确一点，监控是分层级的，常见的可以分为5层：

服务器监控：物理机监控、虚拟机监控、容器监控，分别监控cpu、内存、io、存储、网络…
中间件监控：数据库、缓存、MQ… 例如监控连接数、RT、积压…
服务监控：服务的存活、服务集群实例、每个实例的请求数、QPS、TPS、RT、线程数、error数…
业务监控：针对服务提供的各种业务指标进行监控，比如司机出车率、完单率、拒单率、乘客发单率…
体验监控：终端用户的体验指标

分层带来了不同的关注点，基础设施的同学只需要关注基础服务层的监控；RD同学需要监控中间件、服务与业务层；对于业务与运营同学来说更关注于业务指标与用户体验

告警

没有人喜欢收到报警，相比于那些滞后的、毫无意义、重复、完全无法理解的报警，我们更期望的是，在对成本、优先级、降打扰、时效性综合考量下的，精准的通知到目标人群

定期巡检

只依赖被动接收告警是不够的，还需要定时定期的主动巡检；可以设立值班制度，按照SOP 或 checklist 查看大盘、监控与指标，能够做到主动发现事前异常

快响应

不论是主动发现的异常，还是被动通知到的，首先要做的就是，快速响应！并且第一件要做的就是，快速止损，而非 尝试去定位与解决问题

遇到问题总是先想着梳理来龙去脉，这是很多RD同学的通病，这确实很重要，但眼前更重要的是快速止损，犹豫就会败北，几秒钟的耽搁可能换回的是业务的巨额损失

而快响应的前提是需要提前埋点，比如限流开关、切流开关、熔断开关，甚至一键回滚，都需要在上线之前做好兜底预案！

做复盘

系统异常不可避免，没有系统能做到5个9，遇到问题也不可怕，可怕的是在同一个地方跌倒两次！

而一次好的复盘，不仅可以帮助我们梳理出异常产生的直接原因，更能帮助我们发现系统中深层次的问题，进而优化我们的底层逻辑、架构、流程… 使系统持续演进

一次标准的复盘至少包含5个方面：

背景信息：至少需要介绍这是哪块业务的哪个服务，异常描述、异常处理时长、异常处理结果…
故障复盘：严格按照真实的时间轴描述各个时间节点
故障影响：异常所造成的影响
故障分析：造成故障的直接原因分析
故障反思：造成故障的深层次分析，反思与总结！

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
7
评论
系统稳定性方法论 - 提感知、快响应、做复盘

之前在<系统稳定性方法论>中提到了稳定性建设的四大抓手，在<降发生>之后，今天来说一说其余的三点提感知、快响应、做复盘提感知何为"提感知"提感知指的是：对于已经出现问题，能够及时且精准的进行告警，提升对异常的感知能力如何"提感知"对异常的感知主要分为：被动接收与主动发现，抓手是监控 & 告警监控首先要明确一点，监控是分层级的，常见的可以分为5层：服务器监控：物理机监控、虚拟机监控、容器监控，分别监控cpu、内存、io、存储、网络…中间件监控：数据
复制链接

扫一扫

专栏目录

IT Panda CSDN认证博客专家 CSDN认证企业博客

码龄16年

45: 原创

8万+: 周排名

31万+: 总排名

6万+: 访问

: 等级

901: 积分

12: 粉丝

54: 获赞

20: 评论

104: 收藏

私信

关注

热门文章

分类专栏

最新评论

DDD领域驱动设计
IT Panda: 百度指数
DDD领域驱动设计
菩提one: 博主大大，第一张图片是哪个网站上面的呀？
通过图数据库 Neo4J 建立疫情行动轨迹及接触关系图
qq_42594839: 可以再关系中加入时间属性，来过滤合适的条件
通过图数据库 Neo4J 建立疫情行动轨迹及接触关系图
zfaimili: 你这个没有考虑同一时空的概念呀，我周一去的和合谷，病号周5去的，这种时间关系你怎么在图里表现的呢
Elasticsearch ILM (index lifecycle management): logstash vs fluentd
一颗有想法的小草: 针对 7.9.3 及 7.13（目前最新的版本），有一些原因，为了使得 delete 能正常工作，我们需要使用如下的 API 来对之进行设置：需要使用dev PUT _ilm/policy/test-services { "policy" : { "phases" : { "hot" : { "min_age" : "0ms", "actions" : { "rollover" : { "max_size" : "1gb", "max_age" : "20s", "max_docs" : 5000 }, "set_priority" : { "priority" : 100 } } }, "delete" : { "min_age" : "15s", "actions" : { "delete" : {} } } } } } 可以看到action上的delete操作

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。