这些云计算的事故告诉我们,鸡蛋不能放在一个篮子里

640?wx_fmt=gif


今天,公有云又出事了。腾讯云官方公告是这么说的:

 

腾讯云用户北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘,因受所在物理硬盘固件版本bug导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏。

 

腾讯云监控到异常后,第一时间向用户告知故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据。遗憾的是,虽经多方努力,最终仍有部分数据完整性校验失败。经过分析,该硬盘静默错误是在极小概率下被触发。我们随即对固件版本有bug的硬盘全部进行下线处理,确保相关隐患全部排除。

 

总之一句话,不是短暂性的故障,而是“前沿数控”平台在腾讯云的数据都没了。不知道这家公司究竟丢了多少数据,也不知道这些数据对他们来说意味着什么。不猜测、不评论,只说一声祝福。

 

这并不是第一起公有云事故,也算不上是最严重的一起。

 

自公有云诞生以来,大大小小的故障数不胜数,即便到今天公有云已经发展了超过10年时间,依旧无法完全杜绝。确实没办法,其中涉及的因素太多了。同时,也不用盯着腾讯云一家冷嘲热讽,不夸张的讲,所有公有云服务商都出过或这样或那样的问题,而且几乎每家每年也都得出点问题。

 

本篇不论是非,只呈现一些事实,而且只是一些今年的事故。同时,罗列这些事故也并不是让各位远离公有云,毕竟无论怎样,云都代表着未来先进的生产力,只不过大家要考虑的是如何让它变得更可靠。

 

以下通过时间轴来呈现:


1

7月24日,腾讯云广州区域部分用户出现资源访问失败、控制台登录异常等情况。经排查,确定该故障是因腾讯云广州一区的主备两条运营商网络链路同时中断所导致。


2


7月18日,谷歌云用户Discord、Spotify和Snapchat等多个热门在线服务遇到了停机或响应缓慢的现象。后经谷歌确认,谷歌云全球负载均衡系统(Global Loadbalancers)出现问题,该系统为许多服务返回502出错消息,包括AppEngine、Stackdriver和Dialogflow等服务,此外客户全球负载均衡系统也出了问题。


3


6月27日,阿里云出现运维失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题。受影响范围包括阿里云官网控制台,以及MQ、NAS、OSS等产品功能。


4


6月15日,因重复分配内部IP地址,谷歌云虚拟机实例大量出现联不上网的问题。


5


4月26日,GitLab数据库故障切换被意外触发,导致平台性能下降。


6


4月6日,微软Office 365 和 Azure Active Directory访问出现问题。


……


看完这些不知你作何感想,小编想说的是,都说未来企业都会使用多朵云,不妨现在就把这件事提上日程吧。


640?wx_fmt=jpeg

阅读更多

没有更多推荐了,返回首页