1 背景
最近看到了华为和suse合作的一个视频,里面说到了他们实现了内存和cpu的热插拔, 以保证硬件设备的高可用性,提供更加稳定的支持。早上起来想了想可能的一些设计思路, 后续查找资料验证思路的正确性和可行性。
2 个人思路
多U和多内存主要是为并行计算做准备的,这也就为实现热插拔提供了良好的土壤。
2.1 初级功能–需人工干涉的热插拔
对每个cpu和内存做单独的开关控制,出现问题时人工控制关闭相应的cpu和内存,任务自动流向 其他节点。
优点:实现简单。缺点:规模部署时人工处理比较麻烦。
2.2 高级功能–基于心跳监测的自动控制
需要一个单独的