谷歌云误删甲方账户至业务瘫痪 1 周:云服务负责人被裁、Oracle 产品经理现身嘲讽...

82ee8f866910b1732370bda853f02cd0.gif

这是一次“史无前例”、“独一无二”的事件,倘若这家基金管理公司没有在其他地方同时做「备份」,后果只会更加不堪设想。

整理 | 屠敏

出品 | CSDN(ID:CSDNnews)

全面上云的时代,“意外”会哪天到来,谁也说不准。近日,澳大利亚一家退休基金管理公司 UniSuper 超过 50 万名会员账户惨遭删除、管理的 1250 亿澳元资产“不可见”、业务服务遭摆停长达一周多时间......

最终经调查,这场听起来就足以让人“心惊胆战”的 Bug 源头出在了科技大厂 Google Cloud 的身上。

96a22fa4973d861744d472587838808e.png

超 50 万会员账户无法登录、 账户余额数据不可见

UniSuper 是一家澳大利亚退休金基金,为澳大利亚高等教育和研究部门的员工提供退休金服务,此前因回报率高,还获选过澳洲最优养老基金。

“意外”发生在当地时间 5 月 2 日,UniSuper 不少会员反馈无法访问该公司的许多服务。不久之后,UniSuper 紧急在官网上线一则公告,对所有会员用户做了初步的解释和安抚:

您可能注意到影响 UniSuper 系统的服务中断问题。

该问题源自我们的一个第三方服务提供商,我们正在积极与他们合作解决此问题。

我们的服务提供商向我们保证,此次中断不是恶意行为或网络攻击造成的,并且没有 UniSuper 数据因此而暴露给未经授权的各方。

无法像往常一样访问您的在线账户令人沮丧,对此我们深表歉意。

我们正在全天候工作,以使系统快速、安全、可靠地恢复在线。当您的账户恢复完全在线访问权限时,我们会通知您。

感谢您的耐心和理解。 

有数据显示,就在当时,该基金拥有超过 62 万名会员,管理着 1,250 亿澳元的基金。不过,UniSuper 上述的一封声明因为宕机时间的延续没有起到任何作用,反而引得人心惶惶。

次日,UniSuper 继续发了声明,不仅公开了他们合作的第三方服务提供商——Google Cloud,而且也无奈表示,“现阶段我们无法确认解决问题的时间表,但会随时通知成员。”

本以为是一次小的宕机事件,却没想到 3 天之后,UniSuper 给出的回应还是“UniSuper 的系统继续受到中断的影响。对于造成的干扰,我们深表歉意。”

就这样一直持续到了 5 月 9 日,此时距离宕机已经发生了整整一周的时间,UniSuper 对外透露,「业务开始逐步恢复,在我们继续恢复过程中,某些服务仍将受到限制」:

我们预计以某种方式提供的在线服务将包括登录在线服务、访问移动应用程序以及查看余额的能力。由于常规交易和投资一直正常进行,一旦我们的系统恢复,就会反映在您的余额中。

随着系统逐步上线,我们将随时向会员通报情况。我承诺会员每天都会收到有关逐步恢复服务的最新消息,并再次感谢您的耐心等待。

00e85d946c5be8a765e1c7d6c70f0de9.png

长达一周宕机背后,究竟发生了什么?

至于其中到底发生了什么,UniSuper 本身并没有办法解释清楚,所以其直接在公告中,附上了 Google Cloud 给出的声明内容。

Google Cloud 表示,UniSuper 服务的中断是由 Google Cloud 的一系列罕见问题造成的,这些问题导致在配置 UniSuper 私有云期间发生错误,从而触发了一个先前未知的软件错误,影响了 UniSuper 的系统。

其补充道,「Google Cloud 对于由此造成的不便深表歉意,我们将继续与 UniSuper 全天候合作,全面修复这一情况,目标是尽快逐步恢复服务。我们想再次强调,这是一起独立事件,并非恶意行为或网络攻击的结果,并且没有 UniSuper 数据暴露给未经授权的各方。」

不久之后,Google Cloud CEO Thomas Kurian 也出面证实,这次中断是由一系列前所未有的事件引起的,其中在配置 UniSuper 私有云服务期间无意中发生的错误配置最终导致 UniSuper 私有云订阅被删除

至于无意触发的错误之所以造成持续一周的宕机事件,是因为 UniSuper 在两个不同地区对数据进行了复制和备份,以防止数据中断和丢失。但是,当 UniSuper 的私有云订阅被删除时,它导致了这两个地区所有数据被删除。

“要恢复 UniSuper 的私有云实例,我们的团队需要投入大量的精力、努力和合作,才能实现所有核心系统的全面恢复。UniSuper 和 Google Cloud 的合作使我们的私有云得以广泛恢复,其中包括数百台虚拟机、数据库和应用程序”,UniSuper 说道。

此外,也非常值得庆幸的是,UniSuper 称他们此前还与另一家服务提供商合作,对数据进行了备份,否则情况可能会更糟。「这些备份最大限度地减少了数据丢失,并显著提高了 UniSuper 和 Google Cloud 完成恢复的能力。」

如若不然,此次宕机持续的时间可能就不止一周了。

当地时间 5 月 13 日,UniSuper 最新向会员发布公告表示,“UniSuper 网站和移动应用程序上的在线服务已经恢复。会员可以通过我们的网站和移动应用程序登录其账户、提出在线交易请求、查看投资业绩等。我们仍在恢复退休储蓄计算器和退休收入计算器的功能,但它们很快就会恢复。我们感谢您的耐心等待。”

这意味着后续微小的影响仍在持续中......

7ff8c49e4dcaa6baf22b2af750d47792.png

9d5c4088dbaf7b3858ab434b22ddca5b.png

UniSuper 历经坎坷的上云之

云宕机事件时有发生,其实也屡见不鲜,不过让 UniSuper 或倍感不爽的是,他们才使用 Google Cloud 不到一年的时间。

据外媒报道,2023 年 6 月,UniSuper 正在使用 Google VMware Engine (GCVE) 托管服务进行数字化转型。

在此之前,时任 UniSuper 架构主管 Sam Cooper 表示,该公司一方面在“微软 Azure 上拥有云服务”,另一方面也“通过位于墨尔本港和东面 26 公里处的 Mitcham 的两个数据中心管理硬件”。

不过,由于其墨尔本港数据中心在 2017 年 5 月发生过一场火灾,导致 UniSuper 部分系统关闭,客户无法访问其账户,许多系统和服务都受到了短暂的影响。此次之后,UniSuper 便有计划完全退出其自己的企业数据中心。

直到 2023 年,UniSuper 希望通过向云的迁移将使 UniSuper 能够快速扩展并满足潜在的业务增长机会。

在与三个大型云提供商进行了招标,最终选择了 Google 作为最佳匹配公司。彼时,Sam Cooper 表示,“我们采用这种模式的主要优势在于它是在 VMware 平台上运行的,我们的团队已经习惯了使用该平台。它采用了很多团队熟悉的技术,并以 Google 引擎为基础。”

进而 UniSuper 在云咨询公司 Kasna 的帮助下,将所有非生产工作负载(包括约 1,900 个虚拟机)从澳大利亚数据中心转移到 Google Cloud。2023 年 6 月,其刚完成 60% 的云迁移。

据悉,这一次迁移时间总共为六个月,当时预计在 2023 年 9 月才完成迁移。

如今仅时隔 8 个月,这次重大的、持续性的宕机事件就发生了。

0819b5a2626652f10f5b70ee18c9910d.png

一次中断,影响后续声誉

虽然一些主要云服务提供商,包括 Amazon Web Services、Microsoft Azure 等都曾经历过这些情况,例如,2023 年 6 月,AWS 发生了一场持续两个多小时的事件,影响了美国东海岸的多项服务;去年 9 月, 微软 Azure 在澳大利亚的数据中心也发生过宕机,导致用户无法访问 Azure、 Microsoft 365和 Power Platform 服务超过 24 小时,但是像 Google Cloud 这样持续一周的宕机事件还是不太常见。

现实来看,Google Cloud 占据全球云计算市场近 10% 的份额,其客户包括 Verizon、LinkedIn、英特尔、雅虎和 PayPal 等重量级企业,实力本不该被小觑,但此次事件发生之后,如 EIRTrend 和 Parekh Consulting 首席执行官 Parekh Jain 评论道,“从声誉的角度来看,这可能会损害 Google,并导致客户对该公司作为 CSP(云服务提供商)缺乏信任。“

Jain 补充说,「此类中断还可能导致客户业务中断和数据丢失,这就是为什么许多人倾向于采用多云策略进行风险管理的原因」。

来自 ElbaiteAU 公司 CTO 认可道,”当我读到这篇文章时,我完全震惊了。这是 DRP (灾难恢复)正确运行的一个典型例子。向 UniSuper 工程团队和领导团队致敬“

15737a06bdfe608627ce5caf92f1c3c4.png

除此信任受损之外,也有同行对 Google Cloud 此次事件开启了暗讽模式。Oracle 产品经理 Killian Lynch 在转发这一事件时评论道,”建议 DBA 周一开始使用多云“,同时还打了一个广告——“如果您正在构建人工智能并需要便宜的 GPU,请查看 @OracleCloud (我们不会删除您的公司)”

7a43cea9693c470c81e04579cccddc27.png

如今随着这一事件的发酵,X 平台上一位名为 Kenneth Dredd 用户现身表示:

「我今天被 Google 解雇了。我曾担任澳大利亚云服务总监,负责管理客户的数据。

在上传 UniSuper 账户的报告时,我不小心删除了数据,报告显示我们的算法检测到他们在 ESG 披露中的前瞻性声明过于乐观。

我已经接受了 Google 优厚的解雇补偿金,并将继续直接向澳大利亚证券和投资委员会(ASIC)追究“洗绿”(是一种广告或舆论操弄的形式,透过有欺骗性质的绿色公关和绿色行销手段来让公众相信一个组织的产品、目标和政策都是环境友善的。通常采取漂绿策略的公司是为让自身,或是供应商的所犯的环境失误看起来与己无关)问题。」

36071d19a4ef2a394a723dcf6a6b8f5e.png

此外,作为事件的主角,当有人询问 UniSuper “是否会继续使用 Google Cloud”时,其在早些时候并没有做出明确承诺,而是说:

UniSuper 非常重视为会员提供可靠服务的责任。我们的重点是让系统快速、安全地恢复在线。

我们同时与 Google Cloud 密切合作,完成完整的根本原因分析。Google Cloud 已确认这是一次前所未有的孤立事件,并已采取措施确保此问题不再发生。我们将评估这一事件,并确保我们能够最好地为我们的会员提供服务。

最后更新时间:2024 年 5 月 7 日

最后,这一次的事件再次警醒众人,“云时代,不要把鸡蛋放到一个篮子里!”

参考:

https://www.datacenterdynamics.com/en/news/australian-superannuation-fund-unisuper-is-moving-to-the-cloud

https://www.unisuper.com.au/about-us/media-centre/2024/a-joint-statement-from-unisuper-and-google-cloud

https://www.unisuper.com.au/contact-us/outage-update

https://twitter.com/KennethDredd/status/1789272980306178231

https://twitter.com/Killianlynchh/status/1789291794196218095

推荐阅读:

6d86274ea6c89f37b22aab27ba4946bb.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值