随着数据中心建设的规模不断扩大,新技术迭代更新,承载数据中心业务的网络变得异常复杂。为了适应数据中心业务的发展,数据中心网络也在不断更新与变化,给运维工作带来了极大的难度。 |
随着数据中心建设的规模不断扩大,新技术迭代更新,承载数据中心业务的网络变得异常复杂。为了适应数据中心业务的发展,数据中心网络也在不断更新与变化,给运维工作带来了极大的难度。数据中心宕机事故也难免发生,这不仅增加了数据中心运维人员的工作量,更重要的是给数据中心带来了巨大的损失,就连全球知名的互联网巨头也经常享受这般“待遇”。
互联网巨头宕机不断,运维工作成难题
3月3日凌晨,阿里云出现宕机故障,导致购买阿里云服务的企业网站或互联网公司APP无法正常使用。一大波程序员、运营和运维不得不从被窝里爬起来干活。针对阿里云此次宕机,58高级架构师沈剑称,事故持续了3个小时左右,事后观察了2个小时。
5月3日凌晨3点43分开始,微软Azure在全球范围内出现了大面积宕机,整个过程持续了将近2个小时,直到5点30分才完全恢复。受Azure宕机影响,包括Microsoft 365,Dynamics和DevOps在内的微软主要服务均出现使用问题。
6月3日凌晨2点58分开始,谷歌在全球范围内遭遇了大规模中断,