大促场景系统稳定性保障实践经验总结

每到双11,如何保障系统高峰扛得住、长期平稳是每个大促人必须面对的问题。在今年双11之前,阿里云在上海举办了一场线下交流,阿里大促和稳定性保障负责人、中间件专家、解决方案专家等将历年总结的大促经验分享给参会嘉宾,我们选取了其中的精彩内容整理如下。

image.png

一、互联网行业稳定性建设的观察与思考

第一位分享嘉宾是阿里云华东互联网团队的高级解决方案架构师江煵,他拥有十余年的软件开发经验,近些年一直从事云计算方向的开发和架构工作,主导过多个云平台、PaaS平台的开发建设,对于云和互联网架构方面有比较深入的理解和实践,目前关注于容器、中间件、Serverless等云原生的技术方向。

image.png

江煵在分享中提到,今年我们在新闻里听到了很多比较大的宕机事件,宕机的原因其实都很典型,删库跑路、被攻击、没有做好容量规划或者弹性能力不足、系统更改等。宕机后果还是比较严重,比如某SaaS服务商直接经济损失是两千多万,当天市值下跌10亿;某新能源车制造商网络中断事故当天市值下跌近数百亿美元。股价能涨回来,但对消费者的信心损害、对公司的品牌声誉的影响等这些很难在短时间内消除掉。

关于行业的稳定性建设现状,不少企业稳定性建设上欠的账还是很多的,一些偏小且偏传统的公司,可能都还没有高可用方面的准备。即使是中大型公司,在稳定性建设上还是存在短板。

image.png

稳定性建设相关的工作很难被看到、被认可或客观评判,不出事故确实有可能是运气,而即使是发生事故,也有可能因为稳定性做的很好且已经避免了十起其他重大事故。所以需要一些办法来为稳定性建设工作做一些定性甚至定量的评估,让这方面的工作有目标、过程可跟进、结果能检验,所以这方面我们做了一些探索和尝试。

这里我们提出了一个关于稳定性建设成熟度模型的设想,从11个维度,建议了两种稳定性建设成熟度评估方法:一种是雷达图模式,通过11个指标的打分,得出来一个整体分数;另一个是等级模式,每个指标维度根据建设的完善度给0~4分,我们希望所有的公司应该至少达到基础级以上,中大型公司能到发展级,行业头部公司能到成熟级水平。

当然这个成熟度模型本身还不是特别完善,现在提出来给大家参考和探讨,未来我们会持续优化,不光希望给大家合理的评估参考办法,更希望能对行业整体水位进行分析,让各家对自己的稳定性建设在行业内的水位有所了解,便于制定合理的目标。

image.png
image.png

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值