系统稳定性治理最佳实践

最新推荐文章于 2024-07-02 09:37:03 发布

jianghuihong2012

最新推荐文章于 2024-07-02 09:37:03 发布

阅读量2.1k

点赞数

分类专栏：杂文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/itbuluoge/article/details/104261841

版权

本文探讨了系统稳定性的重要性，并详细介绍了稳定性治理的三个方面：监控、压测和演练。监控涵盖应用性能、数据库监控等方面，通过监控load、java线程数和GC来确保系统健康。压测用于在生产前发现系统问题，而演练则通过模拟故障来测试系统的鲁棒性。总结来说，系统稳定性治理是保障业务发展不可或缺的一环。

摘要由CSDN通过智能技术生成

系统稳定性治理最佳实践

稳定压倒一切，没有稳定就没有生成。国家是如此，业务系统也是如此。老子说，“治大国若烹小鲜”，治理系统也是要做到同样，要掌握火候，精选食材，用料恰当，辅以煎炒烹炸煮，则方能出一盘好菜。

很多同学优先考虑公务员、教师等职业，其中非常重要的一个因素就是这类职业相对稳定。应用系统稳定性也是如此，是所有因素里的前提。

屏幕快照 2020-02-11 12.55.11.png

试想一下，支付宝经常打不开，你还敢存钱进去吗？

试想一下，微信经常卡死，你会不会烦躁想骂人？

试想一下，京东一支付就系统繁忙，你慌不慌？

那么系统稳定性该如何治理？有没有什么标准或者可以放之四海皆准的方法论和实践？

系统稳定性问题

屏幕快照 2020-02-11 12.57.41.png

一个系统稳定性取决于很多因素，同样也受制于很多因素。

为什么丰田可以40万公里不修，而某些国产车开了1年，除了喇叭不响，其它地方都会响？

为什么纳智捷不停车邮箱根本加不满？

类似的，一个系统的稳定性也受制于很多方面，总结下来大致是以下几点

硬件及网络影响

这个是指应用的容器层面的影响，包括服务硬件、机房、网络带宽等。这类因素往往对于开发人员来说不可控，比如管道工人挖断光缆、运营商网络抖动或延迟等。

这类问题一般来说很难预期，也很难针对问题进行专项治理。覆盖全世界网络，根本没有人可以保证网络绝对的稳定性，也根本无法保障一台服务器永远不宕机。

高并发大流量

对于一般的系统来说，流量往往不会成为瓶颈，一般的中小企业做的都是垂直类、行业类业务，总体覆盖人群一般不会很多，百万级已经是天大的调用量了，大部分的系统估计只有几十到几百的QPS。针对初级的访问流量，尚且不用做高并发大流量的设计，遵循普通的开发准则即可覆盖99%以上的业务了。

但是针对全球型、全国型的国民级应用，则高并发和大流量是主要要考虑的一个TOPIC，不仅在技术方案上就做重点设计规划，还需要持续关注和治理专项。

比如微信DAU达到了10亿级别，这个量级对所有相关的系统都提出了很大的挑战。一个全员推送不当，可能导致全国人民微信抖三抖。

比如淘宝双十一高峰期需要处理66W笔订单，这个量级是一般的系统根本无法满足的。

方案设计缺陷

方案缺陷指技术方案或者产品逻辑设计有问题，在满足一定的条件时，可能不会出问题，但是走了某个流程或者流量到了某个层次就凸显异常问题。

编码缺陷

这个是最多的一类问题&#x

最低0.47元/天解锁文章

jianghuihong2012

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
系统稳定性治理最佳实践

系统稳定性治理最佳实践稳定压倒一切，没有稳定就没有生成。国家是如此，业务系统也是如此。老子说，“治大国若烹小鲜”，治理系统也是要做到同样，要掌握火候，精选食材，用料恰当，辅以煎炒烹炸煮，则方能出一盘好菜。很多同学优先考虑公务员、教师等职业，其中非常重要的一个因素就是这类职业相对稳定。应用系统稳定性也是如此，是所有因素里的前提。试想一下，支付宝经常...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。