阿里云服务大规模故障:运维操作失误

640?wx_fmt=jpeg
编辑 | 张婵
昨天下午阿里云出现大范围故障,影响了全国半个互联网圈。运维工作责任太重大。

6 月 27 日下午 4 点 20 分左右,阿里云出现大范围故障,手机端和 PC 端都无法访问,持续时间一个多小时,影响范围包括阿里云官网控制台,以及 MQ,NAS,OSS 等产品功能,也有用户反应阿里巴巴,淘宝,滴滴和石墨文档等产品也出现了服务不稳定的情况,据说金融云也出现故障。阿里云用户众多,此次大规模故障可以说是牵一发而动全身,影响了全国半个互联网了。

640?wx_fmt=png

到今天凌晨 1 点左右,阿里云官方微博发布了故障说明。说明中表示这次事故是运维操作失误,对于这次故障阿里云没有借口,将认真复盘,“敬畏每一行代码,敬畏每一分依托”。

640?wx_fmt=jpeg

对这份故障说明很多网友都指出了一个问题,就是虽然阿里云承认了自己的失误,但是对阿里云用户造成的损失并没有提及任何补偿措施,这让有损失的用户心里多少还是有点不爽。

昨天下午故障发生时,大家都在吐槽自己受到了影响,也都在纷纷猜测到底出了什么问题。有传言说是实习生误删登陆服务 (实习生:这个锅我们不背),也有人说是阿里基础设施故障,底层网络出了问题,数据不会丢,只是发生了网络的短时间不可用。

640?wx_fmt=jpeg

在出现故障大家都慌得不行的时候,硬件供应商,IDC 服务商,其他云服务商都趁乱来给自己打了一波广告。

640?wx_fmt=jpeg

640?wx_fmt=png

640?wx_fmt=png

但是此次出现问题的是业务部分,而不是云服务器出了问题,希望大家下次自家别出问题就好了。

也有很多人对故障的出现表示理解。有网友说,“系统越复杂,越集中,越容易出故障,而且一旦出故障,还会引起雪崩效应,造成的损失就更大。”

资深技术专家陈皓在微博 @左耳朵耗子上也发表了自己的看法:阿里云出故障了,任何技术人员都会知道故障不可避免,对于故障我们应该给予更多的理解。这里,只希望阿里云不要处理工程师,因为惩罚事故责任人完全没有意义。系统的错误往往来自于团队的工程错误,应该改善技术工程手段或软件设计,就算是人没招对,也怪招聘过程,而事故责任人反而是最无辜的……


活动推荐

架构师在关注技术,开发应用的同时,需要定期梳理自己的架构设计思维,积累时间长了,你看待世界事物的方式会发生根本性变化,你会发现我们生活的世界也是在抽象、分层、分治和演化的基础上构建起来的。

ArchSummit 会议邀请了国内外大公司的专家来分享架构思路,包括一些创业公司的研发团队管理经验,会让你有豁然开朗的收获。会议报名最后一周,点击阅读原文。

640?wx_fmt=jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值