微软的Azure团队在调查11月19日困扰其众多客户的全球多因素身份验证中断事件时发现了问题根源。微软发现了三个根本原因,以及导致Azure,Office 365,Dynamics和其他微软用户无法在当天大部分时间进行身份验证的监控漏洞。

在11月19日的14个小时里,微软的Azure Active Directory多重身份验证(MFA)服务崩溃。另外由于Office 365和Dynamics用户通过此服务进行身份验证,因此他们也受到了影响。

问题根源:

  1. MFA前端与其缓存服务的通信中出现了延迟问题。

  2. 处理来自MFA后端服务器的响应时的竞态条件。

  3. MFA后端无法处理来自前端的任何进一步请求。

微软发言人表示,前两个原因是在11月13日星期二的部分数据中心代码更新中引入的,而在11月16日之前所有数据中心已经完成了代码更新。第三个原因是由原因2引发的,虽然MFA后端在微软的监控下似乎是正常运行,但在原因2的影响下,仍然出现了问题。

欧洲、中东和非洲(EMEA)以及亚太地区(APAC)的客户首先受到这些问题的影响。随着时间的推移,西欧和美国的数据中心相继受到冲击。即使在工程师使用了允许前端服务器绕过缓存的热修复之后,问题仍然存在。除此之外,遥测和监控没有像预期的那样发挥作用。

微软确定了许多改进MFA服务的进一步措施,包括审核其更新部署程序(目标完成日期:2018年12月); 监督服务的审查(目标完成日期:2018年12月); 对遏制过程的审查将有助于避免将问题传播给其他数据中心(目标完成日期:2019年1月); 以及服务运行状况仪表板和监控工具的通信流程更新(目标完成日期:2018年12月)。

微软发言人向受影响的客户道歉,不过任何计划中的经济补偿。微软11月19日在Azure status history上发布了更多关于导致MFA崩溃的事件的细节。