![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Stability
文章平均质量分 70
稳定大于一切
忆之独秀
Engineer
展开
-
【稳定性】为什么监控和告警是必须的?
在工作中会有深度思考监控告警相关问题,我们都知道监控和告警的目的是要在事中及时发现问题并定位系统问题。我问过自己一个问题,为什么要加监控和告警?如果不加监控告警行不行?结论是:不行。一、定义首先来看一下为什么是监控告警。监控:通过数据量化服务器的各种行为。告警:当监控获取的数据发生异常并且达到告警阈值或者触发告警策略的时候,进行通知。二、能不能不加监控依然让系统稳定地提供服务?答案是可以,但是前提条件是:2.1 对系统存在的风险有全面100%的认知;2.2 ...原创 2021-02-08 12:10:50 · 1538 阅读 · 0 评论 -
【Dubbo】dubbo线程池被打爆事故及分析
记一次线上故障,dubbo线程池被打爆导致服务不可用,基于此再学习一下线程模型和优化。一、翻车现场 某个周末,收到报警异常报警,翻看日志如下:[2020-10-xx xx:xx:xx] api name = xxx, method = xxx, param = xxx,org.apache.dubbo.rpc.RpcException: fail to invode the method...Caused by: java.util.concurrent.Exe...原创 2021-01-10 12:34:33 · 1241 阅读 · 0 评论 -
【稳定性】FMEA方法在系统可用性设计上的应用
最近在跟进软件系统的交付质量专项,需要解决的就是在软件交付之后出现故障过多的问题,这是一个较为宏观的问题,而有一个核心的点就在于系统可用性方案设计上的问题,设计上有了风险隐患点,测试上大概率也无法测试出风险隐患点(软件质量是设计出来的,不是测试出来的),那么上线之后就必然会出现问题,因此需要有一个方法来找到系统可用性设计上的风险隐患点,那么在系统设计的过程中尽量规避它们,同时能为测试用例提供明确的方向,这个方法就是FMEA。一、什么是FMEAFMEA,Failure mode and ...原创 2020-10-25 18:08:15 · 776 阅读 · 2 评论 -
【稳定性】混沌工程
1.什么是混沌工程?在可控的范围和环境下,通过注入故障,来验真系统的对于故障的容错手段,从而持续不断提升系统的稳定性和高可用性。2.为什么要混沌工程?发现系统弱点,来提升系统稳定性和可用性。3.如何实践混沌工程?以下原则描述了应用混沌工程的理想方式(源自 Netflix 在产生环境中对系统弹性测试的经验总结:http://principlesofchaos.org/): 原则 说明 建立一个围绕稳定状态行为的假说 ..原创 2020-10-25 18:20:22 · 268 阅读 · 0 评论