8月19日下午,网易云音乐遇到了一次严重的服务器故障,导致网页端出现 502 Bad Gateway 报错,且应用程序(App)也无法正常使用。这一事件不仅影响了用户的正常使用,还可能对公司声誉和经济造成了一定的损失。据推测,问题可能与基础设施相关,如数据中心迁移或人员调整后的交接失误。不过,网易云官方澄清称并没有出现数据库删除等严重事故,并且快速修复了问题。作为补偿,网易云为受影响的用户提供了7天的免费会员。
无独有偶,网易云的服务器故障并不是第一个案例,早在2018年10月,全球知名的代码托管平台GitHub 就遭遇了近24小时的中断,开发者无法正常进行代码提交和项目管理。导致大量IT行业公司开发进度受到影响,据悉,该故障是由于数据库故障导致的,GitHub 的数据库冗余设计未能有效应对该故障。
除去压力原因,认为原因也会造成服务器故障。2017年2月,亚马逊一名工程师在维护系统的过程中,由于误操作输入了一条错误的指令,导致亚马逊的 AWS S3 服务在美国东部的一个区域发生了大规模宕机,对全球范围内的大量网站和服务造成了严重影响。
此外,还有许多人熟知的Google云服务中断事件,该事件发生在2019年6月,由于Google内部的网络问题导致部分网络流量过载,Google的多个云服务,如Gmail、YouTube等,因数据中心的网络