阿里云服务大规模故障：运维操作失误

最新推荐文章于 2021-11-30 13:50:45 发布

高效开发运维

最新推荐文章于 2021-11-30 13:50:45 发布

阅读量509

点赞数

原文链接：https://sz2018.archsummit.com/schedule?utm_source=wechat\x26amp;utm_medium=gaoxiaoyunwei\x26amp;utm_content=bottom

版权

640?wx_fmt=jpeg

编辑 | 张婵

昨天下午阿里云出现大范围故障，影响了全国半个互联网圈。运维工作责任太重大。

6 月 27 日下午 4 点 20 分左右，阿里云出现大范围故障，手机端和 PC 端都无法访问，持续时间一个多小时，影响范围包括阿里云官网控制台，以及 MQ，NAS，OSS 等产品功能，也有用户反应阿里巴巴，淘宝，滴滴和石墨文档等产品也出现了服务不稳定的情况，据说金融云也出现故障。阿里云用户众多，此次大规模故障可以说是牵一发而动全身，影响了全国半个互联网了。

640?wx_fmt=png

到今天凌晨 1 点左右，阿里云官方微博发布了故障说明。说明中表示这次事故是运维操作失误，对于这次故障阿里云没有借口，将认真复盘，“敬畏每一行代码，敬畏每一分依托”。

640?wx_fmt=jpeg

对这份故障说明很多网友都指出了一个问题，就是虽然阿里云承认了自己的失误，但是对阿里云用户造成的损失并没有提及任何补偿措施，这让有损失的用户心里多少还是有点不爽。

昨天下午故障发生时，大家都在吐槽自己受到了影响，也都在纷纷猜测到底出了什么问题。有传言说是实习生误删登陆服务（实习生：这个锅我们不背），也有人说是阿里基础设施故障，底层网络出了问题，数据不会丢，只是发生了网络的短时间不可用。

640?wx_fmt=jpeg

在出现故障大家都慌得不行的时候，硬件供应商，IDC 服务商，其他云服务商都趁乱来给自己打了一波广告。

640?wx_fmt=jpeg

640?wx_fmt=png

640?wx_fmt=png

但是此次出现问题的是业务部分，而不是云服务器出了问题，希望大家下次自家别出问题就好了。

也有很多人对故障的出现表示理解。有网友说，“系统越复杂，越集中，越容易出故障，而且一旦出故障，还会引起雪崩效应，造成的损失就更大。”

资深技术专家陈皓在微博 @左耳朵耗子上也发表了自己的看法：阿里云出故障了，任何技术人员都会知道故障不可避免，对于故障我们应该给予更多的理解。这里，只希望阿里云不要处理工程师，因为惩罚事故责任人完全没有意义。系统的错误往往来自于团队的工程错误，应该改善技术工程手段或软件设计，就算是人没招对，也怪招聘过程，而事故责任人反而是最无辜的……

活动推荐

架构师在关注技术，开发应用的同时，需要定期梳理自己的架构设计思维，积累时间长了，你看待世界事物的方式会发生根本性变化，你会发现我们生活的世界也是在抽象、分层、分治和演化的基础上构建起来的。

ArchSummit 会议邀请了国内外大公司的专家来分享架构思路，包括一些创业公司的研发团队管理经验，会让你有豁然开朗的收获。会议报名最后一周，点击阅读原文。

640?wx_fmt=jpeg

高效开发运维

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。