系统稳定性治理最佳实践

本文探讨了系统稳定性的重要性,并详细介绍了稳定性治理的三个方面:监控、压测和演练。监控涵盖应用性能、数据库监控等方面,通过监控load、java线程数和GC来确保系统健康。压测用于在生产前发现系统问题,而演练则通过模拟故障来测试系统的鲁棒性。总结来说,系统稳定性治理是保障业务发展不可或缺的一环。
摘要由CSDN通过智能技术生成

系统稳定性治理最佳实践


稳定压倒一切,没有稳定就没有生成。国家是如此,业务系统也是如此。老子说,“治大国若烹小鲜”,治理系统也是要做到同样,要掌握火候,精选食材,用料恰当,辅以煎炒烹炸煮,则方能出一盘好菜。


很多同学优先考虑公务员、教师等职业,其中非常重要的一个因素就是这类职业相对稳定。应用系统稳定性也是如此,是所有因素里的前提。


屏幕快照 2020-02-11 12.55.11.png


试想一下,支付宝经常打不开,你还敢存钱进去吗?

试想一下,微信经常卡死,你会不会烦躁想骂人?

试想一下,京东一支付就系统繁忙,你慌不慌?


那么系统稳定性该如何治理?有没有什么标准或者可以放之四海皆准的方法论和实践?


系统稳定性问题


屏幕快照 2020-02-11 12.57.41.png


一个系统稳定性取决于很多因素,同样也受制于很多因素。

为什么丰田可以40万公里不修,而某些国产车开了1年,除了喇叭不响,其它地方都会响?

为什么纳智捷不停车邮箱根本加不满?


类似的,一个系统的稳定性也受制于很多方面,总结下来大致是以下几点


硬件及网络影响

这个是指应用的容器层面的影响,包括服务硬件、机房、网络带宽等。这类因素往往对于开发人员来说不可控,比如管道工人挖断光缆、运营商网络抖动或延迟等。

这类问题一般来说很难预期,也很难针对问题进行专项治理。覆盖全世界网络,根本没有人可以保证网络绝对的稳定性,也根本无法保障一台服务器永远不宕机。


高并发大流量

对于一般的系统来说,流量往往不会成为瓶颈,一般的中小企业做的都是垂直类、行业类业务,总体覆盖人群一般不会很多,百万级已经是天大的调用量了,大部分的系统估计只有几十到几百的QPS。针对初级的访问流量,尚且不用做高并发大流量的设计,遵循普通的开发准则即可覆盖99%以上的业务了。


但是针对全球型、全国型的国民级应用,则高并发和大流量是主要要考虑的一个TOPIC,不仅在技术方案上就做重点设计规划,还需要持续关注和治理专项。

比如微信DAU达到了10亿级别,这个量级对所有相关的系统都提出了很大的挑战。一个全员推送不当,可能导致全国人民微信抖三抖。

比如淘宝双十一高峰期需要处理66W笔订单,这个量级是一般的系统根本无法满足的。


方案设计缺陷

方案缺陷指技术方案或者产品逻辑设计有问题,在满足一定的条件时,可能不会出问题,但是走了某个流程或者流量到了某个层次就凸显异常问题。


编码缺陷

这个是最多的一类问题&#x

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值