阿里核弹级事故,全系产品都崩了,今年的年终奖不好拿了...完整事件回顾

怪事年年有,今年特别多。

这一次可以说是真的活久见了,强如阿里也会全线崩溃。

早在10月23号这天,阿里旗下的语雀便遭遇了一场前所未有的P0级事故。

客户端,网站,移动端都无法正常访问和使用,持续了近8个小时。

由于当天又是周一,所以受影响的用户非常多,致使很多打工人在微博上怨声载道。

524620a58334d774154625acf2032194.jpeg

正当大家以为这起事故已经称得上是“年度大事件”的时候,11月12日——这个电商公布双十一战绩的关键节点,阿里再度被打脸。

当天下午五点多起,阿里旗下产品的大量用户开始反馈无法使用等问题。

很快,淘宝崩了、闲鱼崩了、钉钉崩了......一系列铺天盖地的信息冲上了热搜。

4c4f0d1a5b1b48a63e99db6ac72b7a91.jpeg

由于问题出在了阿里云上,所有阿里系的应用基本上都部署在自家的阿里云上。

而阿里云这个类似于高速公路一样的基础设施塌了后,公路上的车辆自然都无法通行。

据网友实测,本次故障范围覆盖了一系列阿里系应用,包括饿了么、高德地图,甚至支付宝的多活机房都满载了。

其中钉钉等应用直接无法打开,淘宝、天猫、闲鱼等则是交易系统故障。

不仅阿里自家产品受影响,据天眼查数据,阿里云的企业用户超过300万家。

这些客户因为云服务不可用,业务运营也可能全面瘫痪。

很多用了阿里云或者阿里云服务的产品也没能逃过一劫,比如CSDN和博客园。

6ea9805430d483e6747265be3727ba73.jpeg

这一次的故障,也让不少网友感慨称,原来阿里系的产品已经与我们的生活息息相关。

据反馈,在故障的影响下,甚至有一些停车场都无法顺利抬杆,还有一些超市无法结账。

大到公司业务停摆,小到烘干机和智能音箱都用不了。

9e386ddc364db89e769c1c221fa34fa1.jpeg

因为前一天正是双十一,有不少人推测,服务器故障或是受到其影响。

也有网友调侃称,这是“双十一期间开屏跳转广告”和“降本增效”带来的后遗症。

7a8967d205e9d877c40662d49bfffc2a.jpeg

cbb2c4154c99e19ef574ee278e139d27.png

受影响地域也涵盖甚广,包括阿里云位于中国内地、港澳台、亚洲其他、欧洲、北美、中东、政务云以及金融云等数据中心均受影响。

从阿里云官网得知,这次受到影响的产品包括:企业级分布式应用服务、消息队列 MQ、微服务引擎、链路追踪、应用高可用服务、应用实时监控服务、Prometheus监控服务、消息服务、消息队列Kafka版、机器学习、图像搜索、智能推荐 AIRec、智能开放搜索 OpenSearch、云行情、数据总线 DataHub、检索分析服务 Elasticsearch版、图计算服务 Graph Compute、实时计算 Flink版、智能数据建设与治理 Dataphin、开源大数据平台 E-MapReduce、云原生大数据计算服务 MaxCompute、实时数仓 Hologres、大数据开发治理平台 DataWorks、智能媒体服务、媒体处理、视频点播、对象存储、文件存储NAS、表格存储、日志服务、云存储网关、文件存储 HDFS 版、块存储、混合云备份服务、密钥管理服务、云防火墙、数据库审计、加密服务、运维安全中心(堡垒机)、容器镜像服务、容器服务Kubernetes版、API 网关、资源编排、云原生数据仓库 AnalyticDB PostgreSQL版、图数据库、云原生内存数据库Tair、云数据库 Redis 版、云原生关系型数据库 PolarDB、云数据库专属集群、云数据库 MySQL 版、云原生数据仓库AnalyticDB MySQL版、云原生分布式数据库 PolarDB-X、云数据库 ClickHouse、云原生多模数据库Lindorm、云数据库 PostgreSQL 版、云数据库 SQL Server 版、云数据库 MongoDB 版、云数据库HBase版、数据传输、数据库自治服务、数据库备份、物联网平台、NAT网关、负载均衡、云解析 PrivateZone、弹性公网IP、共享带宽、转发路由器、私网连接、高速通道、IPv6 网关、专有网络VPC、云企业网、VPN网关、FPGA 云服务器、超级计算集群、批量计算、无影云桌面、弹性伸缩、弹性容器实例、弹性裸金属服务器、云服务器 ECS、轻量应用服务器、函数计算、Serverless 应用引擎、云托付、专有宿主机、GPU云服务器、弹性高性能计算、操作审计、服务器迁移中心、运维编排、智能计算灵骏、云呼叫中心、交通云控平台、客服工作台、视觉智能开放平台、智能外呼机器人、智能语音交互、智能对话机器人、智能用户增长、运维事件中心、新零售智能助理、智能双录质检、地址标准化、机器翻译、自然语言处理、短信服务、云解析DNS、域名、号码认证服务、邮件推送、版权与专利服务、语音服务、智能联络中心、工商财税、Salesforce on Alibaba Cloud、智能营销引擎、云采销、能耗宝、阿里邮箱、商标服务、移动研发平台、机器人流程自动化、号码隐私保护、DataV数据可视化、音视频通信、视频直播、闪电立方、网盘与相册服务、安全、内容安全、安全管家、应用身份服务 (IDaaS)、实人认证、数字证书管理服务(原SSL证书)、风险识别、Web应用防火墙、云安全中心(态势感知)、数据管理、云价签、云投屏、物联网智能视频服务、物联网无线连接服务、CDN、云数据传输、数据语音、智能接入网关、全站加速、ChatAPP 消息、全球加速、安全加速 SCDN、边缘节点服务 ENS、访问控制、资源管理、云监控、配置审计。

受到影响的地区包括:华北2(北京)、华北6(乌兰察布)、华北1(青岛)、华东2(上海)、华南2(河源)、华北3(张家口)、中国香港、印度(孟买)、美国(硅谷)、华南1(深圳)、英国(伦敦)、韩国(首尔)、日本(东京)、阿联酋(迪拜)、西南1(成都)、华南3(广州)、新加坡、澳大利亚(悉尼)、马来西亚(吉隆坡)、华北5(呼和浩特)、印度尼西亚(雅加达)、美国(弗吉尼亚)、菲律宾(马尼拉)、泰国(曼谷)、华东1(杭州)、华南1 金融云、华东5(南京-本地地域)、华东6(福州-本地地域)、华北2 金融云(邀测)、华东2 金融云、华东1 金融云、华北2 阿里政务云1、非区域性、德国(法兰克福)、沙特(利雅得-合作伙伴运营)。

总之,本次阿里云出事波及之大,已属于全球性大故障,在阿里系历史上实属罕见。

当天18 点 14 分,阿里云官方终于回应了:

尊敬的客户:您好!
北京时间 2023 年 11 月 12 日 17:44 起,阿里云监控发现云产品控制台访问及 API 调用出现异常,阿里云工程师正在紧急介入排查。非常抱歉给您的使用带来不便,若有任何问题,请随时联系我们。

229e2284c77b7bdc336152907f2e9e32.png

根据阿里云团队公布的整个修复过程,从17:44发现问题,一直到21:11,历时将近3个半小时才基本恢复。

这次应该是阿里云 OSS 的故障,使用阿里云 OSS 的公司这次都受到了影响。这种情况下,用户的自救可能性为零,只能等待阿里云恢复。

阿里云此次核弹级别的重大事故,也再次暴露了云计算服务的脆弱性。

云计算服务的确是一种高可靠、高可用、弹性伸缩的服务,但也存在故障的风险。

这次还只是部分地域控制台服务受影响,那下一次呢?

在日益复杂的互联网环境下,阿里的技术保障能否真正应对挑战?

阿里作为互联网巨头,其崩溃影响之大,背后暴露出的问题同样惊人。

还希望包括阿里在内的各大互联网公司能吸取各种教训,加强技术和服务的改进,以免再度发生类似的事情带来巨大损失。

当然,最苦逼的还是阿里打工的程序员,估计今年年终奖金也难了......

另外,阿里云相关负责人的绩效怕是不保了,说好的“稳定可靠”呢29dbbcbffb86af31f3e35968e25c5fad.png

f24d0a977c2898b33ef6709f1321d8aa.png

---END---

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值