随着各行各业数字化转型升级的加速,数据存储容量和硬盘数量也在不断增加,数据丢失事件时有发生,特别是硬盘故障事件,一旦发生,对于业务的影响不可估量。
超融合在磁盘故障提前检测及处置方面是如何做的?今天就跟大家揭秘信服云的卡慢盘监控和隔离机制。
深信服超融合持续对主机上的硬盘进行IO级监控,如发现有卡盘或者慢盘,就会对硬盘进行隔离处理,避免继续有IO落入该硬盘导致业务卡死或者变慢。超融合卡慢盘检测隔离机制在应用过程中分为监控、识别和处置三个阶段。
一、监控
针对磁盘卡慢故障模式复杂的问题,多维度检测确诊。
超融合采用了Linux通用的工具和信息,包括内核日志分析、smart信息分析、硬盘IO监控数据分析等从多个维度精确定位故障硬盘,真正实现不依赖特定硬件工具、兼容性广的软件定义可靠性。
二、识别
对识别卡慢盘的模型进行细致打磨:超融合卡慢盘检测机制在识别阶段,使用了 《卡慢盘识别与处理方案》《一种卡慢盘识别处理方法、装置以及存储介质》《一种慢盘故障精准识别和诊断方法》 等专利技术,制定出了更加精准的卡慢盘识别模型,使卡慢盘的识别准确率在99%以上。最终将卡慢盘分为三种类型:卡慢、严重慢盘、轻微慢盘。
三、处置
超融合针对不同类型的卡慢盘采用不同的处置方法,避免业务数据落在卡慢盘上,保障业务数据安全。在上述前提下,尽可能保障业务正常对外提供服务。
超融合针对不同类型卡慢盘处置流程如下:<