此文已由作者王盼授权网易云社区发布。
欢迎访问网易云社区,了解更多网易技术产品运营经验~
现状
计算节点发生磁盘损坏等数据无法恢复的异常时,节点上的云主机系统盘无法恢复,导致云主机只能被清理重建
计算节点宕机但磁盘数据可用时,重启即可恢复所有云主机的运行
计算节点多次宕机(或一段时间内频繁宕机),则需要迁移所有云主机或者直接清理重建,云硬盘需要迁移到其他cinder-volume存储服务节点
一般来说重建过程比较耗时,并且云主机数据盘数据会全部丢失;另外采用本地file镜像启动的云主机离线或者在线迁移比较耗时并大类占用物理机硬盘和网络IO,会进一步加重计算节点负载,增大宕机可能性,实际情况下迁移操作的可执行性大打折扣。
另外有一些对我们自动化恢复流程有利的功能或者设备已经逐步上线到新建机房,因此可以考虑在这些机房实施相关的自动化恢复方案。比如义桥机房服务器已经全部配备远程管理卡,并且基于ceph存储作为系统盘+云硬盘的云主机也已经上线到该机房,这是我们实施该方案的基础。基于ceph存储后端的云主机在异常恢复过程中,没有数据的拷贝,不会占用硬盘和网络IO,因此恢复速度较快,可以做到几秒内在正常节点恢复运行(不包含云主机操作系统启动时间)&#x