大家好,我是小猿!
23号,阿里旗下的在线文档「语雀」出现了比较严重的生产事故,不可用时间长达7个多小时之久,直接痛失四个9的可用性,让很多用户一顿吐槽;这起事故就算是放在整个炸裂界也都是相当炸裂的存在;
既然已成事实,用户的数据也没有丢失,很快,24号语雀也给出了补偿方案;「个人用户可以领取6个月的VIP补偿,只要是故障之前注册的用户,都可以领取」(新用户公告中没提及,没注册的用户可以试一下),这波公关和安抚用户的方案还是比较有诚意。更有甚者,直接在官方留言,建议每5个月这样崩一次...
![c08a00011cbe92f0485f1eff5c07f45d.png](https://img-blog.csdnimg.cn/img_convert/c08a00011cbe92f0485f1eff5c07f45d.png)
补偿领取的入口:https://www.yuque.com/settings/member
![e4a1ae5c794d0ebf89c0a42dccc1339b.png](https://img-blog.csdnimg.cn/img_convert/e4a1ae5c794d0ebf89c0a42dccc1339b.png)
如果你还是新用户,也可以填写邀请码: 「 BPYWZA 」 即可领取 30 天语雀会员。
![de1fad84c900ec3da79547b6601e5977.png](https://img-blog.csdnimg.cn/img_convert/de1fad84c900ec3da79547b6601e5977.png)
另外你要是在校大学生或者老师,还可以再领取一年的 VIP
![d56f3b98adc280b91000c782c3e349e0.png](https://img-blog.csdnimg.cn/img_convert/d56f3b98adc280b91000c782c3e349e0.png)
加上之前推广时候薅的羊毛,又可以继续白piao 2年,不得不说:真香!!!
![ebfeb0683b378210f6620de0026bde86.png](https://img-blog.csdnimg.cn/img_convert/ebfeb0683b378210f6620de0026bde86.png)
以下是语雀官方对本次事件的公告
「各位语雀的用户」:
10 月 23 日语雀出现重大服务故障,且持续 7 个多小时才完全恢复,给用户使用造成极大不便,对此我们深感抱歉。经过复盘,我们在这里向大家进一步说明故障原因、修复过程和改进措施。
「故障原因及处理过程:」
10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作时,由于新的运维升级工具 bug,导致华东地区生产环境存储服务器被误下线。受其影响,语雀数据服务发生严重故障,造成大面积的服务中断。为了尽快恢复服务,我们和数据存储运维团队全力进行数据恢复工作,但受限于恢复方案、数据量级等因素,整体用时较长。具体过程如下:
14:07 数据存储运维团队收到监控系统报警,定位到原因是存储在升级中因新的运维工具 bug 导致节点机器下线;
14:15 联系硬件团队尝试将下线机器重新上线;
15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。
15:10 开始新建存储系统,从备份中开始恢复数据,由于语雀数据量庞大,此过程历时较长,
19 点完成数据恢复;同时为保障数据完整性,在完成恢复后,用时 2 个小时进行数据校验;
21 点存储系统通过完整性校验,开始和语雀团队联调,
最终在 22 点恢复语雀全部服务。用户所有数据均未丢失。
「改进措施:」
通过这次故障我们深刻认识到,语雀作为一款服务千万级客户的文档产品,应该做到更完善的技术风险保障和高可用架构设计,尤其是面向技术变更操作的“可监控,可灰度,可回滚”的系统化建设和流程审计,从同 Region 多副本容灾升级为两地三中心的高可用能力,设计足够的数据和系统冗余实现快速恢复,并进行定期的容灾应急演练。只有这样,才能提升严重基础设施故障时的恢复速度,并从根本上避免这类故障再次出现。为此我们制定了如下改进措施:
升级硬件版本和机型,实现离线后的快速上线。该措施在本次故障修复中已完成;
运维团队加强运维工具的质量保障与测试,杜绝此类运维 bug 再次发生;
缩小运维动作灰度范围,增加灰度时间,提前发现 bug;
从架构和高可用层面改进服务,为语雀增加存储系统的异地灾备。
「赔偿方案:」
为了表达我们的歉意,我们将向所有受到故障影响的用户提供如下赔偿方案:
针对语雀个人用户,我们赠送 6 个月的会员服务。操作流程:进入工作台「账户设置」,点击左侧「会员信息」,在会员信息页面点击「立即领取」,即可获得赠送服务。
针对语雀空间用户,由于情况比较复杂,我们会单独制定赔偿方案。请空间管理员留意语雀站内信。
这次的故障让我们深切地感受到了用户对语雀的依赖以及语雀肩上的重大责任。再次向所有语雀用户表达我们诚挚的歉意。我们将持续提升语雀的服务质量和服务稳定性,不辜负每一位用户的信任!
感谢您的认真阅读,如果喜欢本篇文章,就点个“在看”或转发到朋友圈,让更多的人看到吧
程序员小猿 ID:DeveloperIT
长 按 二 维 码 , 一 键 关 注
MORE | 更多精彩文章