盘点2023年全球规模最大的15起云中断事件

2023年,全球各大科技公司如阿里云、微软、谷歌等频繁遭遇大规模云服务中断,涉及数据库维护、数据中心事故、服务故障等多个层面。文章强调了智能巡检机器人在减少数据中心故障中的作用,以及数字化时代对云服务可用性和基础设施韧性的更高要求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

阿里云、滴滴等互联网巨头近期接连发生大规模宕机事件,在国内引发公众热议。不过这类情况在国外并不少见,全球科技巨头和各种规模的供应商在2023年经历了多次云服务中断。本文将带你盘点2023年全球最大规模的15起云服务中断事件。

1.微软服务中断

1月17日,北美地区的Microsoft Teams和Microsoft 365用户遭遇服务中断,中断从9:17持续到14:18。服务中断跟踪网站Downdetector显示了大量与Teams相关的问题报告。上午10点左右,累积报告了504个问题;在上午11点前,又报告了503个问题。这些问题中大约66%由服务器连接引起,20%由应用程序引起,14%属于登录问题。

2.IT Glue服务中断

太平洋标准时间1月18日上午8点左右,Kaseya旗下云文档软件厂商IT Glue报告称,他们必须进行“紧急数据库维护,以解决一些客户遇到的问题。”根据事件报告,这家供应商启用了只读模式,直到太平洋标准时间上午9:33才恢复正常。IT Glue在1月20日之前恢复了所有密码和文件。

3.甲骨文、NetSuite服务中断

此次服务中断从2月13日上午大约10:30,持续到2月15日周三下午大约3:30,主要影响美洲、澳大利亚、亚太、中东、欧洲和亚洲的用户。事件原因是,支持OCI公共域名系统API接口的后端基础设施出现性能问题,导致无法处理一些传入服务请求。甲骨文使用了实时后端优化和DNS负载管理微调来减轻问题。

4.Datadog服务中断

从3月8日开始,美国云监控和安全工具供应商Datadog持续遭遇服务中断,解决问题花了近两天时间。根据该供应商5月季度收益电话会议的一份文字记录,这次事件使Datadog损失约500万美元,需要500到600名工程师三班倒工作才能解决。

5.微软服务中断

4月20日,Microsoft 365在线应用和供应商的Teams协作应用出现问题,持续近6个小时。Ookla旗下的Downdetector网站当天记录了数千个M365的中断报告,报告数量在上午7点左右超过了3000个,在上午9点左右达到峰值。根据The Register的报道,Teams、SharePoint Online和Outlook在4月24日再次出现中断。4月25日Exchange Online发生另一起中断。

6.谷歌服务中断

4月25日,法国巴黎一家数据中心发生火灾,导致欧洲地区的谷歌云服务和超过90个云服务受影响。据IT Pro报道,受影响服务包括谷歌云储存、云密钥管理服务、云身份和访问管理和谷歌Kubernetes引擎。

7.甲骨文中心问题

4月17日,美国退伍军人事务部遭遇甲骨文中心电子健康记录(EHR)系统中断,中断持续五个小时,起因是数据库能力升级和故障转移。在4月25日,甲骨文中心系统再次遭遇了近四个小时的中断,影响到了美国退伍军人事务部、美国国防部和美国海岸警卫队。据报道,美国退伍军人事务部决定暂停进一步使用该系统,直到使用该系统的五个部门站点对系统功能性恢复信心为止。

8.思科SD-WAN问题

5月10日,思科多种vEdge平台的公共根证书过期,导致该供应商在推特公开道歉,并在Reddit论坛的思科板块发布帖子。根据思科的说法,vEdge路由器提供了“思科SD-WAN解决方案的广域网、安全和多云能力。思科SD-WAN vEdge路由器以硬件、软件、云或虚拟化组件的形式提供,位于站点的边缘,例如远程办公室、分公司、校园或数据中心。”

9.6月微软服务中断

6月5日上午,微软365服务,如Teams和Outlook,在连续几天经历了广泛的中断,随后几天又发生了重大的OneDrive中断,上万名微软365用户受中断影响。第二天,微软发现服务问题的再次发生。6月9日,微软用户发现Azure云平台门户经历了一次重大中断。

10.AWS问题

2023年6月13日上午11:49开始,客户在美国东部北弗吉尼亚(US-EAST-1)地区对Lambda函数调用的错误率和延迟增加。由于降级的Lambda函数调用,一些其他AWS服务——包括Amazon STS、AWS管理控制台、Amazon EKS、Amazon Connect和Amazon EventBridge——也出现错误率和延迟增加。Lambda函数调用在下午1:45开始恢复正常,所有受影响的服务在下午3:37完全恢复。”

11.Slack服务中断

7月27日,由Salesforce拥有的协作平台Slack经历了持续约一小时的系统范围问题,根据官方所述,“我们的工程团队在更改管理内部系统通信的服务后发现了一个问题。问题导致了Slack功能下降。变更最终被撤销,为所有用户解决了问题。”

12.IT Glue服务中断

7月18日发生的IT Glue问题持续了约一小时,导致“502错误网关”性能问题“可能会阻止我们的一些合作伙伴访问IT Glue。”该事件在12:46解决。

13.9月微软Teams问题

9月13日上午,Microsoft Teams在九月中旬经历了长达两个多小时的宕机。应用程序前端是可访问的,但尝试登录系统和/或与其交互导致500错误和超时,影响巨大。

14.Salesforce中断问题

Salesforce发布一份报告称,该供应商于9月20日遭遇服务中断,持续大约两小时,影响了其产品和服务。但MuleSoft和Tableau受到的影响时间长达约四小时。

15.Cloudflare、Workday服务中断

11月2日,Cloudflare面向客户的控制面板界面和分析服务出现中断。该事件持续到11月4日。

云服务中断原因

电力波动、断电或电缆故障都可能导致云服务中断。不稳定的电力供应可能对服务器和设备造成损坏;数据中心内的服务器和设备在运行时会产生大量热量,冷却系统的故障可能导致温度升高,最终损害硬件并触发宕机;网络故障可能阻碍数据中心内部设备之间的通信,也可能影响数据中心与外部世界的连接;服务器、存储设备或网络设备的硬件故障可能导致数据终端;操作系统或应用程序中的软件错误可能导致系统崩溃。这可能是由于程序错误、漏洞或不当的配置引起的;机房设备巡检出错导致严重的业务中断和数据丢失,也是造成服务中断很重要的的一个原因。

数据中心机房巡检不力导致数据中断

1. 忽略关键设备的检查:如果巡检人员忽略了关键的设备、服务器或冷却系统的检查,可能导致未能及时发现设备故障或冷却问题,从而引发宕机。

2. 巡检频率不足:如果巡检频率太低,某些问题可能在下次巡检之前就发生。设备故障或其他潜在问题可能会在巡检周期外引发宕机。

3. 数据分析不足:巡检系统的数据分析部分如果没有充分考虑到异常模式,可能导致潜在故障未被及时识别,从而造成宕机。

4. 人为错误:人为因素,如误操作、错误的巡检流程执行或对报警信号的错误解读,可能导致对真实问题的忽视或错误的干预。

5. 巡检系统故障:如果巡检系统本身存在故障或漏洞,可能导致未能正常收集或报告关键数据,从而无法预防机房宕机。

如何降低云中断发生的概率?

数据机房智能巡检机器人助力减少数据中心机房故障和宕机风险

1. 实时监测:配备传感器和监测设备,能够实时监测机房的温度、湿度、电压等关键参数,及时发现异常。

2.远程控制:允许远程控制和管理,以便在发现问题时能够迅速采取措施,无需等待人工干预。

3. 巡检频率:24小时不间断巡检,确保机器人能够全面、及时地检查设备和环境条件,以防止潜在故障。

4. 预测性维护:利用机器学习和数据分析技术,预测设备的寿命和潜在故障,提前进行维护,防止突发宕机。

5. 自主决策:赋予机器人一定的自主决策能力,使其能够在紧急情况下自动采取必要的措施,例如关闭设备、切换备用系统等。

6. 报警系统:配备高效的报警系统,及时通知运维人员或自动执行预定的紧急处理流程,以最小化故障对系统的影响。

7. 远程维护:具备远程维护功能,可以通过网络进行设备调试、升级和修复,减少人工介入的需求。

8. 数据记录与分析:持续记录机房运行数据,通过分析历史数据,识别出现故障的模式,为未来的维护工作提供指导。

超维机房巡检机器人解决方案

国家电网

采购我司机房巡检机器人,面积1000㎡左右;巡检范围包括设备关键指示灯、冷热通道及机房环境指标等。提升了巡检质量,降低了漏检率和误检率;简化了机房运维管理工作,节省了运维人员工作时间;准确、快速定位故障源位置,提升了维修效率。

中国移动

数据中心项目占地118亩,建筑面积15.6万平方米,总投资超过20亿元,项目共分三期建设,建成后将提供超过23000个机柜,出口带宽超过4000G。巡检范围包括设备关键指示灯、冷热通道及机房环境指标等。

中国进出口银行

巡检范围包括数据中心设备运行监测、动环监测、冷热通道、机房安保等。每天巡检7次以上,尤其是夜间巡检,大大减轻了人工巡检工作压力,实现降本增效;巡检效率是人工的3倍,准确率接近100%;保证了数据中心高效稳定运行。

北京金融资产交易所

部署面积300㎡,机柜60+;巡检范围包括机房设备运行监测、冷热通道及机房环境指标等。每天巡检10次以上,基本替代了人工的日常巡检工作;巡检效率是人工的3倍,准确率接近100%;发现数次设备隐患,保证了机房设备的高效稳定运行。

2023年全球发生的大规模云中断事件成为数字时代的一大警示。揭示了数字化社会对于云服务可用性的迫切需求以及对于数字基础设施强大韧性的追求。在这样的背景下,对于机房巡检机器人等智能技术的依赖愈发凸显。

在数字化时代,机房巡检机器人的角色不仅在于提高运维效率,更在于保障数字基础设施的可靠性和稳定性。未来,随着科技的不断发展,这类智能机器人将继续在保障全球云服务的稳健运行方面发挥着至关重要的作用。此类事件提醒我们,不仅需要在数字基础设施的架构上加强防护,更要关注全球数字生态系统的整体稳定性。这也将成为未来数字化社会更全面、可靠构建数字基础设施的契机。

(本文部分内容来源于网络,由于转载多次,已无法找到原作者,如侵权,请联系我们删除)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值