影响全球的蓝屏事件
2024年7月19日发生了大量windows操作系统电脑蓝屏的事情,造成了全球级别的影响。其中国外的影响最大,甚至像医院、银行、航班等与人民生活密切相关的行业都受到了本次影响。导致全球数千架次航班被取消,数万架次航班延误,有大量的旅客被滞留在了机场;医院也受此影响,导致很多急诊被耽误,好在医院有脱离电子化运作的能力。
反观国内影响没有这么巨大,大多是一些企业级别的业务受干预。不过根据统计,受到影响的设备大概850万台,仅占windows设备的1%。
马斯克称这是迄今为止世界上最大的软件事故
很快“微软蓝屏”的问题就找到并在网络上进行了原因的公布,原来是美国网络安全服务提供商CrowdStrike更新错误所致。
CrowdStrike也是一家美国上市公司,甚至市值到达过千亿级别,没想到造成影响如此大的问题。目前该公司提供了一些修复方式使问题设备恢复正常。
封闭式系统
本次蓝屏问题,中国受影响较小,和很多行业以封闭式windows系统为主有关。别看很多医院、银行设备还有嵌入式xp或者win7系统做业务环境,但借助于内网安全以及系统裁剪,其安全性还是有一定保障的。
这批系统一次又一次逃过了各种windows的劫难。系统不是用最新的就最安全,而是要用适合自己的。
思考:企业如何避免客户出现“蓝屏事件”
一个企业的更新,导致操作系统的崩溃,这点确实非常危险。这点也与CrowdStrike所在行业有关,安全领域难免会对系统打更深的交道。
至少有个好消息,绝大部分企业应用并不干预驱动或系统层,因此一般很难产生如此致命的问题。不用太担心这类问题会频繁发生。
但如果上线个功能,自己的服务无法使用,也是很难堪的,甚至还会丢失大量客户,所以通过加入一定的审查机制避免问题是很有必要的。
这起蓝屏事件为国内不少企业敲响了警钟,比如腾讯会议还针对此次蓝屏事件发了一篇公众号,讲到客户对腾讯会议可靠性的担忧。
里面也提到了其通过灰度发布和严谨的测试、上线规范流程,以及保底的回滚策略来避免发生影响用户的重大bug。
造成问题不是企业本意,但依然要建立完善的机制来防患于未然。
当然腾讯能把事情做完善,本身也和其公司规模、成熟的开发团队有关系,而中小型企业如果找到适合自己的检查流程,也是每一位企业管理者应该思考的。