事件回溯
据网友爆料,3月2日23:55分左右,阿里云疑似出现大规模故障情况,华北相当多互联网公司都炸了,一众APP和网站陷入瘫痪,一大波程序员、运营和运维人员都赶去公司加班。晚些时候,阿里云对此作出回应称:华北2地域可用区C部分ECS实例状态异常,导致该区域众多网站和APP都无法正常使用,不少公司就此事在微博刊登出回应公告:
阿里云方面暂无确切故障原因并尚未给出具体受影响范围,其工程师正在进行紧急排查处理,并表示如果有进展会及时向用户同步:
对此,不少程序员在微博吐槽,一时之间该话题之下哀鸿遍野。有网友怀疑是部分磁盘出现问题,凡是读写故障盘的系统软件或服务程序均会受到影响。
对于此事,某公司市场总监在微博表示,一直以为阿里云是公有云稳定的代名词,但出现这种事件让没有配套私服的中小公司措手不及,如果有完善的备用方案,不至于出现大规模宕机。
截止发稿时,阿里云方面回应称:服务器等出现IO HANG,正在处理并将对受影响的客户进行赔偿。
云服务99.99%的安全性是否靠谱?
据了解,这不是阿里云第一次出现宕机事故。
2018 年 6 月 27 日 16:21 左右,阿里云也曾出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。
本次事故被定义为 S1 级别,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”
根据笔者统计,仅去年一年,全球主流云计算厂商就曾发生数十起宕机事故,原因更是五花八门,谷歌云曾因自动化失效导致宕机、AWS曾因数据中心出现硬件问题导致宕机、微软Azure爱尔兰数据中心曾因高温和打雷陷入宕机、腾讯云因运营和硬盘故障陷入宕机…
众多安全事故频发,云厂商承诺的99.99%的安全可靠性是如何定义的?
不久前,笔者曾就云服务的可靠性一事询问阿里云相关技术专家的看法,他表示,云计算厂商得出99.99%可靠性这一数字是经过验证的,通过客户部署反馈,确实故障率在0.01%以下。并且,一旦出现故障,云厂商也都有非常完善的容灾方案,目前主流云厂商已经在提供一定程度上的异构灾备能力,比如,阿里云的3AZ容灾方案,同城一定距离的地方,用户可以自己搭建跨DC方案,技术上能够满足异构容灾需求。如果客户追求极致容灾能力,有可能建设混合云或者采购多家云厂商,架构会带来很大成本压力,但这种选择应该比较少,就好比对安全可靠性要求极高的金融数据库领域,也很少有客户同时选择两种数据库方案。
随着云计算使用量的持续增长,很多企业纷纷开始选择放弃一些控制权,以降低成本。从业界来看,美国大多数互联网企业已经放弃自建数据中心而大规模应用云技术,例如NetFlix大规模应用谷歌云服务,专注于专有云和IaaS的Cloudera和Hortonworks合并过冬。
单一云平台被企业大规模应用同时,这也意味着一旦出现问题,给企业带来的损失和影响是巨大的,多云再次成为重要讨论话题。
多云可以解决所有问题吗?
根据 Gartner 调查,2018 年全球公有云市场整体增长为 21.4%,以亚马逊 AWS、微软 Azure 和阿里云为首的全球云计算“3A”阵营占据超七成市场份额。根据 IDC 数据,在中国市场上,阿里云市场份额相当于第 2 到 9 名的总和。在全球市场,阿里云已超过 Google 和 IBM 的云业务。
据统计,目前 40% 的中国 500 强企业、近一半中国上市公司、80% 中国科技类公司在使用阿里云,其数据中心也在全球范围内增长。可见,国内企业选择阿里云较多,这也让单一云平台绑定问题受到用户关注。
中国平安运维部负责人曾在接受采访时表示,很多大企业如今都会分散选择云服务商。一般情况下,小型企业受限于资金或人员等因素,可能会将所有服务放在同一云计算平台,但大多数中型企业还是倾向于选择多个厂商。
就目前的发展现状而言,云计算服务将越来越趋向于标准化,企业可以轻松得在不同云平台之间进行数据或者应用迁移,多云管理的门槛将被大大降低,如何选择云供应商将完全取决于企业实际需求和业务成本。
就目前国内云计算的应用进程来看,多云对企业带来的挑战非常大,具备容灾意识,尤其是重要业务的灾备方案一定要做好,比如依靠API快速升级扩容切换服务,配合完善的持续集成部署,完全依靠云供应商的长时间不间断服务是不可能的,云上也有故障率,具备完善的灾备意识是现阶段企业负责任的上云态度。