阿里云史诗级故障原因曝光!网友评价也是绝了…

文末赠送新书

整理:程序员的那些事(ID:iProgrammer),参考:云头条、知乎

2023 年 11 月 12 日,阿里云出现了一次史诗级故障,影响甚广。

88854baf215f7d3ae09584c9747a78f5.png

近日网上曝光了阿里云发给客户的一份“故障分析报告”。

693ea9fcc8601df5bb5960183597d3be.png

影响范围

1、OSS、OTS、SLS、MNS 等产品的部分服务受到影响,大部分产品如 ECS、RDS、网络等运行不受影响。

2、云产品控制台、管控 API 等功能受到影响。

时间

2023 年 11 月 12 日 17:39~19.20,故障时间为 1 小时 41 分。

问题概况

2023 年 11 月 12 日 17:39 起,阿里云云产品控制台访问及管控 API 调用出现异常、部分云产品服务访问异常,工程师排查故障原因与访问密钥服务 (AK) 异常有关。工程师修订白名单版本后,采取分批重启 AK 服务的措施,于 18:35 开始陆续恢复,19:20 绝大部分 Region 产品控制台和管控 API 恢复。

处理过程

17:39:阿里云云产品控制台访问及管控 API 调用出现异常。

17:50:工程师确认故障是 AK 服务异常导致,影响云产品控制台、管控 API 调用异常,以及依赖 AK 服务的云产品服务运行异常。

18:01:工程师定位到根因。

18:07:开始执行恢复措施,包括修订白名单版本、重启 AK 服务。

18:35:杭州等 Region 开始恢复正常。

19:20:绝大部分 Region 的云产品控制台和管控 API 调用恢复正常。

原因

访问密钥服务 (AK)在读取白名单数据时出现读取异常,因处理读取异常的代码存在逻辑缺陷,生成了一份不完整白名单,导致不在此白名单中的有效请求失败,影响云产品控制台及管控 API 服务出现异常,同时部分依赖 AK 服务的产品因不完整的白名单出现部分服务运行异常。

改进措施

1、增加 AK 服务白名单生成结果的校验及告警拦截能力。

2、增加 AK 服务白名单更新的灰度验证逻辑,提前发现异常。

3、增加 AK 服务白名单的快速恢复能力。

4、加强云产品侧的联动恢复能力。

网友评论

d2c35c08e05d15c14e894e28871e5108.png
@XYC:

坏消息:降本增效到了深水区。

好消息:阿里往社会输送的是真人才。

@易希

一个坏消息和 3 个好消息。

坏消息是发生了史诗级的故障。

好消息 1: 拥有了其他云不具备的处理史诗级故障的能力。

好消息 2: 已经发生过一次概率为百万分之 3 的故障了,下次发生故障是千年以后的事情了,现在大家可以放心用了。

好消息 3: 这次真正的抓住了用户痛点。

@王万德

裁员的后遗症。

裁员总是先裁一线干活的,留下擅长写 ppt 和敢于吹牛的人。

其中“敢于吹牛的人”是最隐蔽,但是危害最大的。他们往往敢于把自己伪装成专家,欺骗外行(在互联网公司里,外行是那些高管),升职加薪,获得裁员“豁免权”,从此再也没办法被清除。

@乐扣盒子

又想到了 360 大佬的话,公司做大了之后会有死海效应,做实事的往往会最先离职,都蒸发了,最后留下的都是混日子的老油条,包括管理层也一样。

阿里云上一任 CEO 的原话是:我不关心技术,技术不值钱,我关心的是成本。

这次事故可能把阿里最后的护城河填平了。

 
 

往 期 精 选:

■ 没房贷的下属太可怕了。。。

■ ChatGPT4.0 中文版来了,免费体验!

■ 被屏蔽了!ChatGPT 的域名调整 ! !

 
 

—End—

 
 
赠书福利
赠送新书,刚刚上架!由「 北京出版社」赞助提供 ,感兴趣的朋友推荐入手一本。
全书共10章,分别介绍了在ChatGPT的帮助下,使用Excel在数据分析中的应用、建立数据库、数据清洗与加工、计算数据、简单分析数据、图表分析、数据透视表分析、数据工具分析、数据结果展示,最后通过行业案例,将之前学习的数据分析知识融会贯通,应用于实际工作中,帮助读者迅速掌握多项数据分析的实战技能。
1、关注「前端技术编程」公众号
2、回复关键词:抽奖 获取抽奖码
本次共包邮赠送3本书籍


回复关键词:抽奖 参与送书抽奖
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是对四个悖论的简要解释: 1. 库克船长悖论:假设一艘船在海上航行,每次航行距离为1英里,然后返回原点,如此往复。如果船的航速为每小时1英里,那么当船航行到离原点1英里的地方时,需要多长时间才能到达原点呢?如果按照常规思维,应该是1小时,但是实际上,因为船在航行过程中距离原点的距离是在不断缩短的,所以船到达原点需要的时间是无穷多个小时,这就是库克船长悖论。 2. 史诗悖论:这个悖论源于史诗的长度问题。如果一个史诗包含了所有的事件和情节,那么这个史诗会是无穷长的。但是如果要将这个史诗缩短成一个有限的版本,那么必然会遗漏一些事件和情节,这就导致了一个矛盾:如果一个史诗包含了所有的事件和情节,那么它会是无穷长的,但是如果它被缩短成一个有限的版本,那么它就不再包含所有的事件和情节了。 3. 罗素悖论:罗素悖论是对于一个集合中是否包含自身的问题的探讨。假设有一个集合,其中包含所有不包含自身的集合,那么这个集合是否包含自身呢?如果包含自身,那么它不符合定义,因为它只能包含不包含自身的集合;如果不包含自身,那么它又符合定义,因为它不包含自身。这就是罗素悖论的矛盾之处。 4. 双生子悖论:这个悖论源于相对论理论。假设有一对双生子,其中一个人在地球上,另一个人在太空中飞行,然后他们在某一时刻相遇。根据相对论理论,地球上的双生子会感觉时间过得较慢,因此他的年龄也会比太空中的双生子年轻。但是从太空中的双生子的角度来看,地球上的双生子才是在运动的,因此他也应该年轻。这就导致了一个矛盾:双生子在相遇时是否应该年龄相同呢?

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值