又又又崩了?盘点 23 年十大线上事故!

以下文章来源于前端充电宝 ,作者CUGGZ

2023 年,互联网世界日新月异,线上应用已成为我们生活中不可或缺的一部分。然而,在这一年里,一系列令人咋舌的线上事故频频发生。“XXX 崩了” 成为热搜常客。这些事故不仅给用户带来了不便和困扰,也暴露出线上服务在稳定性、安全性和应对突发事件的能力方面存在的问题。

本文将盘点 2023 年的十大线上事故,以期为未来的线上服务提供借鉴和警示。

哔哩哔哩

3 月 5 日晚,B 站出现服务器故障,网页端和移动端的视频均无法加载,转发的视频链接显示“资源失效”。

图片

 

受影响的主要是“番剧”和“影视”页面,用户反映“追番一直提示获取视频内容失败”、“显示页面加载失败”、“看番看一半加载不出来”。还有用户反映,首页能够加载,但全部是繁体字。

图片

 

6 月 28 日,不少用户反应“B 站崩了”,该词条随后上了热搜。用户反映“追番一直提示获取视频内容失败”“显示页面加载失败,你们也这样吗?”“看番看一半加载不出来,我以为我的网有问题”。

该问题持续了一个多小时才被解决。


腾讯

3 月 29 日凌晨,大量网友称微信、QQ 等腾讯旗下社交软件出现功能异常。微信包括语音呼叫、账号登录、朋友圈以及支付在内的多个功能无法正常使用,QQ 文件传输、QQ 空间、QQ 邮箱等也同样出现问题。

图片

 

腾讯客服对此回应称,由于系统故障,部分用户使用微信支付相关功能出现异常,目前正在紧急修复中。用户资金安全不受影响。故障修复后,相关功能使用将恢复正常。

图片

 

此次事故是由广州电信机房冷却系统故障导致,腾讯将其定义为公司一级事故。

事后,工信部通信管理局就微信“3.29 事件”约谈了腾讯相关人员,听取了情况汇报,并要求腾讯公司进一步健全安全生产管理制度、落实网络运行保障措施,坚决避免发生重大安全生产事故,切实提升公众业务安全稳定运行水平。

图片

 

12 月 3 日, 腾讯视频突然没有会员了。

图片

 

对此,腾讯视频官方微博回应:目前腾讯视频出现了短暂技术问题,我们正在加紧修复,各项功能在逐步恢复中。感谢您的耐心等待,由此给您带来的不便我们深感歉意。

图片

 


唯品会

3 月 29 日,“唯品会崩了”登上微博热搜。唯品会对此进行了回应:

图片

 

事后,唯品会发布了一份处理公告,将 329 机房宕机故障判定为 P0 级故障。官方在公告中称,此次南沙机房重大故障影响时间持续 12 个小时,导致公司业绩损失超亿元,影响客户达 800 多万。唯品会表示,决定对此次事件严肃处理,对应部门的直接管理者承担此次事故责任,基础平台部负责人予以免职做相应处理。


Boss 直聘

5 月 24 日,网友反映 Boss 直聘崩了。随后 Boss 直聘回应称:今日上午部分用户使用 boss 直聘 pc 端时,部分功能出现异常,经过紧急抢修,目前已恢复。

7 月 6 日,许多用户打开 BOSS 直聘,发现页面中显示“系统服务错误”,无法正确切换身份。还有网友表示,正和求职者聊着,要马上约面试了,结果就崩了。BOSS 直聘也于当天发布消息称,“7 月 6 日上午,BOSS 直聘 APP 出现短时间服务异常,经过团队抢修已恢复正常。期间为用户带来的不便我们深表歉意。我们将持续优化服务保障。感谢大家一直以来的关注与支持”。

9 月 15 日,“BOSS 直聘”突然崩溃,许多用户无法刷新页面,无法查看新的招聘信息,甚至无法进行聊天交流。

在社交媒体上,一位自称是 BOSS 直聘员工表示,金九银十是招聘旺季,2023 年 9 月 15 日 10 点 15 分 26 秒,在线统计超过 4700 万人在刷 BOSS 页面,目前服务器超荷载,正在维护,找工作的人比国庆买票的人还着急。

BOSS 直聘回应称,关注到一张网传截图。服务器崩了,是真的。技术要改进,是真的。网传的数据,是假的。请大家不信谣,不传谣。据最新数据,每月使用 BOSS 直聘的用户,4360 万人。”

图片

 


语雀

10 月 23 日,蚂蚁金服旗下的在线文档编辑与协同工具语雀发生了前所未有的 P0 级事故,导致平台无法正常访问和使用,持续了近 8 个小时(14:10 至 21:45)

图片

 

事后,语雀给出了故障原因及处理过程:

10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。具体过程如下:

  • 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;

  • 14:15 联系硬件团队尝试将下线机器重新上线;

  • 15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。

  • 15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长

  • 19 点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;

  • 21 点存储系统通过完整性校验,开始和语雀团队联调,最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。

以及改进措施:

通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的“可监控,可灰度,可回滚”的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。为此我们制定了如下改进措施:

  1. 升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;

  2. 运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;

  3. 缩小运维动作灰度范围,增加灰度时间,提前发现 bug;

  4. 从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。

并针对语雀个人用户,赠送了 6 个月的会员服务。


阿里云

11 月 12 日 17 时左右,阿里云突然出现事故,导致阿里云、淘宝、闲鱼、钉钉等几乎阿里全系应用都出现了问题。19 时 20 分左右,经工程师紧急处理,阿里旗下淘宝、钉钉、阿里云盘等应用已全面恢复。

图片

 

据统计,这次异常的影响范围涉及 API 网关、视频点播、运维事件中心在内的 100 多个产品,北京、硅谷、伦敦等 25 个地域受影响。

事后,阿里云并未对外公布事故原因。不过网上流传着一份事故报告,仅供参考:

图片

 


滴滴

11 月 27 日晚,滴滴出行出现系统崩溃,至 28 日修复,崩溃时间长达 12 小时。11 月 29 日,滴滴公布了此次超长时间系统故障的致歉声明。初步调查结果显示,这起事故的起因是底层系统软件发生故障,并非网传的“遭受攻击”。

图片

 

这次事故发生时,上海、北京、广州等多地滴滴用户反馈,滴滴出行 APP 无法使用,地图无法加载。有网友称,使用滴滴呼叫了网约车后,APP 突然无法使用,司机找不到乘客。有网约车司机在社交平台表示,正在送乘客途中,出现导航无法使用,地图无法加载等情况。

图片

 


喜马拉雅

12 月 19 日,不少网友反馈,喜马拉雅 App 出现崩溃状况,无法正常使用或聆听节目。随后,喜马拉雅官博发文致歉,称目前已紧急修复,不会影响用户的会员等权益。

图片

 


Chatgpt

11 月 8 日 22:00 开始,不少网友反馈 OpenAI 的 ChatGPT,包括 API 都无法正常使用。OpenAI 出现故障的时间大约持续了 100 分钟,

图片

 

事后,OpenAI 也已经把这回的故障,定性为了「严重停机」(Major Outage)。OpenAI 表示发现一个问题,导致 ChatGPT 和 API 错误率很高,正在努力解决。直到 23:33,OpenAI 表示确定并实施了修复方案,服务逐渐恢复正常。

图片

 

OpenAI CEO 奥特曼表示,devday(开发者大会)新功能的使用情况远远超出预期,公司原计划周一为所有订阅者启用 GPT,但仍未能实现。由于负载的原因,短期内可能会出现服务不稳定的情况。

图片

 


X

12 月 21 日,国外知名社交平台 X(原推特)遭遇突发崩溃事故。许多用户反映无法正常加载页面、浏览个人资料、查看粉丝列表等操作,该社交平台几乎处于瘫痪状态。

这已是 X 平台今年第二次大规模宕机事件。早在今年 3 月,该平台便经历了一次全球性中断。自 440 亿美元收购后,马斯克对其进行了大幅裁员,裁员幅度接近 80%,其中包括许多负责修复和防止服务中断的工程师。

  • 22
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
2023最值得学的编程语言Top 5是: 1. Python:作为一种简洁、易学易用的编程语言,Python 在2023依然将继续盘踞榜首。它被广泛应用于数据科学、人工智能、机器学习和自动化等领域,具有强大的库和生态系统,使其成为程序员必备技能。 2. JavaScript:作为Web开发的重要一环,JavaScript 在2023仍然将继续受到广泛关注。随着Web技术的不断进化,JavaScript 的需求将继续增长。同时,JavaScript 也逐渐扩展到移动应用开发和后端开发领域。 3. Go:作为由Google推出的静态类型编程语言,Go 在近来的发展迅速,并且在2023有望进入到更多的应用场景。它以高效和简洁而著称,适合构建网络服务器、分布式系统和云计算等领域。 4. Rust:Rust 是一种系统级编程语言,具有强大的内存安全性和并发性能。尽管相对较新,但在2023,Rust 有望获得更多关注,特别是在需要高性能和安全性的领域,如嵌入式系统、游戏开发和区块链等。 5. Kotlin:作为一种现代的静态编程语言,Kotlin 是编写 Android 应用的首选语言。随着 Android 开发者社区的增长,Kotlin 在2023有望继续活跃,并与Java共同成为开发 Android 应用的主力。 需要注意的是,编程语言的发展和流行趋势是随时变化的,以上列出的是在当前预测下可能最值得学习的编程语言。但是,随着技术的不断发展,新的语言和工具可能会出现并成为未来更流行的选择。因此,学习新的编程语言只是一个方面,更重要的是掌握编程的核心概念和解决问题的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

骑着牛的奇兵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值