2020年8月30日,美国电信运营商Level 3经历了一次严重的网络中断。Level 3是美国六个骨干网之一,为北美、拉丁美洲和欧洲的很多互联网运营商提供核心 IP、语音、视频和内容传输。在Level 3网络中断期间全球流量下降了3.5%,导致北美、欧洲很多互联网用户在长达4小时时间内无法访问亚马逊、hulu、playstation network等网站。
下图显示了事故发生前后,Cloudflare网络和美国六个骨干网运营商之间的流量变化。红色部分是Level 3的流量,在事件发生期间流量降至接近于零。稍后Cloudflare启动了流量调度功能,自动将被阻断的Level 3流量重路由到其他网络供应商,如Cogent、NTT、GTT、Telia等,以减轻影响,确保流量的正常流动。
本次事故原因分析
在事故发生之初,全球的域间路由系统中出现了大量的BGP更新消息,所占流量约是正常情况下的十几倍。BGP更新消息由边界路由器发出,用来表示路由已经更改或不再可用。
这些更新显示了Level 3骨干网中BGP路由的不稳定。Level 3已经承认是由于一个错误的Flowspec规则导致了这种BGP异常。Flowsp