云计算节点故障自动化运维服务设计

最新推荐文章于 2024-01-01 08:25:16 发布

w97531

最新推荐文章于 2024-01-01 08:25:16 发布

阅读量453

点赞数

文章标签：云计算网易云

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/w97531/article/details/83105340

版权

此文已由作者王盼授权网易云社区发布。

欢迎访问网易云社区，了解更多网易技术产品运营经验~

现状

计算节点发生磁盘损坏等数据无法恢复的异常时，节点上的云主机系统盘无法恢复，导致云主机只能被清理重建
计算节点宕机但磁盘数据可用时，重启即可恢复所有云主机的运行
计算节点多次宕机（或一段时间内频繁宕机），则需要迁移所有云主机或者直接清理重建，云硬盘需要迁移到其他cinder-volume存储服务节点

一般来说重建过程比较耗时，并且云主机数据盘数据会全部丢失；另外采用本地file镜像启动的云主机离线或者在线迁移比较耗时并大类占用物理机硬盘和网络IO，会进一步加重计算节点负载，增大宕机可能性，实际情况下迁移操作的可执行性大打折扣。

另外有一些对我们自动化恢复流程有利的功能或者设备已经逐步上线到新建机房，因此可以考虑在这些机房实施相关的自动化恢复方案。比如义桥机房服务器已经全部配备远程管理卡，并且基于ceph存储作为系统盘+云硬盘的云主机也已经上线到该机房，这是我们实施该方案的基础。基于ceph存储后端的云主机在异常恢复过程中，没有数据的拷贝，不会占用硬盘和网络IO，因此恢复速度较快，可以做到几秒内在正常节点恢复运行（不包含云主机操作系统启动时间）&#x

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。