语雀P0级故障复盘,有9个字亮了

大家好,我是洋子

最近语雀不是出了个号称 “载入史册” 的 P0 级事故嘛 —— 连续宕机接近8个小时无法使用,作为一个大厂知名产品,这个修复速度属实让人无法理解

故障公告原文:https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw

很快,官方就发布了《故障公告》。有一说一,这个公告写得还是挺不错的,按照时间线梳理出了各时间节点的处理过程

  • 14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;
  • 14:15 联系硬件团队尝试将下线机器重新上线;
  • 15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据;
  • 15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长;
  • 19:00 完成数据恢复,同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;
  • 21:00 存储系统通过完整性校验,开始和语雀团队联调。
  • 22:00 恢复语雀全部服务,用户所有数据均未丢失。

在这里插入图片描述
在改进措施一栏中,先不说具备两地三中心的高可用能力,洋子发现了9个核心关键字可监控,可灰度,可回滚,可以说是维持系统可用性的最基本的保命措施

先举个例子,讲一下这三种能力的用处

可灰度

将系统的新版本全量部署给所有用户之前,先仅对一小部分用户进行试用。这样可以通过收集这部分用户的反馈和监控数据就能评估新版本的稳定性,并及时进行调整和修复,从而减少对全体用户的潜在风险。

灰度发布又有很多策略。比如经典的按流量阶段性发布,先随机给 5% 的用户使用新版本,验证没问题后,再给 20%、50%、75% 的用户使用新版本逐渐放量,直到覆盖 100% 的用户。

还有很多策略,列举几个常见的:

1)按照用户的业务属性灰度,比如 VIP 用户先用、老用户先用。

2)按人群灰度,比如特定地域、特定年龄、特定偏好、特定客户端的用户。

3)按渠道灰度,比如通过某平台注册的用户先体验等等。

灰度做的好,可以避免很多线上问题,及时控制影响。因此很多知名产品发布时都会采用灰度或者内测的策略,这也就是为什么有些同学能第一时间体验到微信新功能,有些同学却没有

可监控

可监控是指能够实时地收集和展示系统运行时的数据和指标,以便开发和运维同学可以及时发现系统问题、更快进行故障排查和性能调优。需要监控的信息可以包括系统性能指标(内存、CPU、带宽等)、业务日志、错误信息等。

可回滚

线上系统出现问题时,可以将已经部署的新版本回退到之前的稳定版本。这样做可以快速恢复系统,减少对用户的影响,并给开发同学足够的时间来排查和修复问题

如果我们的系统具备这样的能力,按照一般的研发测试流程,在我们测试完成测试后,如果是服务端,则进入上线阶段,如果是客户端,则进入发版阶段。在上线和发版阶段,一般来说都是需要先进去一个小流量的范围,先影响一小部分用户,若期间测试验证没有问题,则扩大范围,直到全量,这就是灰度发布的意思,如果灰度期间有监控报警,则可以及时回滚止损,回退到线上的历史版本,避免影响线上用户

如果我们的系统不具备这样的灰度的能力,一方面只能一次性推全新版本,看起来省了不少事,但一旦出现问题,影响线上的全部用户。如果没有监控,出现问题后,我们无法第一时间及时感知,只能被动等着线上用户来反馈问题。如果没有回滚能力,有Bug只能等着再次上线修复,也会拉长造成影响的时间

语雀作为阿里旗下的产品,有千万级用户的体量,内部不应该没有这样的监控平台、灰度发布和部署管理平台,总之令人匪夷所思,另外这次Bug的原因是由于运维工具有Bug,是否经过充分的测试?该不会又有个小同学背锅了

最后,面对这样超级严重的事故,我想说一定要牢记,先止损!先止损!语雀给的赔偿方案还是比较有诚意的,直接给六个月会员,用语雀的小伙伴可以去领取了
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: 学习前端的第一个阶段是学习HTML,而复盘回顾则是对所学知识的总结和反思。那么,学习HTML的复盘回顾目标可以包括以下几个方面。 首先,复盘回顾的目标是巩固和加深对HTML的理解。在学习HTML的过程中,我们通过了解HTML的语法规则、标签和属性等,掌握了如何创建网页的结构和内容。通过复盘回顾,可以巩固这些知识点,提高对HTML的理解和应用能力。 其次,复盘回顾的目标是发现和纠正自己在学习HTML过程中存在的问题和不足之处。可能在学习HTML的过程中,我们遇到了某些困难,或者对某些知识点理解不够透彻,或者在实践中出现了一些错误。通过复盘回顾,可以仔细检查自己的学习过程,找出问题所在,从而有针对性地进行纠正和改进。 另外,复盘回顾的目标是提升自己的实践能力。学习HTML不仅是理论知识的学习,更重要的是能够将所学知识应用到实际项目中。通过复盘回顾,可以回顾自己在实践中的表现,发现自己在实践中的不足之处,并通过实践的经验不断提升自己的实践能力。 最后,复盘回顾的目标还可以包括对学习HTML的感悟和未来的规划。通过复盘回顾,可以总结自己在学习HTML过程中的体会和收获,为以后的学习和发展做好规划。同时,也可以思考并规划下一个阶段的学习目标和计划,为之后的学习打下坚实的基础。 ### 回答2: 学习前端第一个阶段的HTML项目的复盘回顾目标主要包括以下几个方面。 首先,目标是回顾并巩固HTML的基本知识和技能。在这个阶段,我学习了HTML的基本标签、元素和属性的用法,以及如何创建网页的结构和布局。通过实际项目的练习,我巩固了这些知识,提高了对HTML的熟练程度。 其次,目标是学会使用常用的HTML标签和元素来构建网页内容。在项目中,我学习了如何使用标题、段落、链接、图片、表格等标签和元素来创建丰富多样的网页内容。我学会了使用这些标签和元素实现文本、图片和表格的显示和排版,同时也学会了如何添加链接和导航等功能。 另外,目标是了解并掌握HTML的语义化。在项目中,我学习了如何正确选择和使用HTML标签和元素,以达到更好的语义化效果。我了解到使用适当的标签能够提高网页的可读性和可访问性,对搜索引擎优化也有一定的帮助。 最后,目标是培养自我实践和解决问题的能力。在项目中,我遇到了一些技术问题和困难,但通过查找文档、搜索和尝试,我成功地解决了这些问题。这个过程提高了我自主学习和解决问题的能力,也为接下来的学习和项目打下了坚实的基础。 总的来说,学习前端第一个阶段的HTML项目的复盘回顾目标是回顾并巩固HTML的基本知识和技能,学会使用常用的HTML标签和元素,了解并掌握HTML的语义化,以及培养自我实践和解决问题的能力。通过这个项目的学习,我对HTML有了更深的理解和掌握,为接下来的学习打下了坚实的基础。 ### 回答3: 学习前端的第一个阶段,主要是学习HTML的基础知识和技能。在完成第一个HTML项目后,进行复盘回顾是为了总结学习经验并确定进一步的目标。 首先,复盘回顾的目标是回顾项目的整体结构和设计,并评估自己对HTML基础知识的掌握程度。通过回顾项目,可以了解自己在项目中的表现,发现并改正可能存在的问题,并提升项目的整体质量。同时,回顾还可以帮助我们深入了解HTML的各种标签和属性的使用方法,以及它们之间的关系和作用。 其次,复盘回顾的目标是梳理学习过程中遇到的困难和问题。学习HTML的过程中,可能会遇到一些难以理解或掌握的概念和技术,或者在项目中遇到了一些难以解决的问题。通过回顾这些困难和问题,可以找到学习的瓶颈和不足之处,然后有针对性地进行学习和提升。 最后,复盘回顾的目标是制定下一阶段学习的目标和计划。通过回顾项目,我们可以更好地了解自己在前端学习的过程中的进步和不足,并且确定下一个阶段需要学习和提升的重点。在制定学习目标和计划时,我们可以考虑自己的兴趣和职业发展方向,并选择相应的学习资源和实践项目。 总而言之,学习前端的第一个阶段完成一个HTML项目后,进行复盘回顾的目标是总结、评估和改进学习过程和成果,并制定下一阶段的学习目标和计划。通过不断的回顾和提升,我们可以逐渐成为一名优秀的前端开发者。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bug 挖掘机

支持洋子

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值