原标题:智能运维高招 | 基于机器学习的磁盘故障预测
导读
RGF算法+迁移学习精确预测硬盘故障。《Predicting Disk Replacement towards Reliable Data Centers》由IBM研究院发表于数据挖掘顶会议KDD 2016。磁盘是当今数据中心中最常见的硬件设备,也是最易发生故障的设备。
尽管有如RAID的防御机制,系统的可用性和可靠性仍然经常严重冲击。 本文采用RGF算法和迁移学习精确预测硬盘故障从而判断硬盘是否应该更换。其方法对硬件设备的故障预测有借鉴意义。
互联网迅速发展,网络服务数量骤增, 大规模海量数据存储系统是必不可少的支持。虽然新的存储介质例如SSD,已经在读性能等很多方面拥有了比磁盘更好的性能,但就目前来讲,其高昂的花费使大部分数据中心难以负担。因此,大型数据中心依然采用传统的以磁盘为主的存储系统。这样做采购成本上虽然有了节省,但磁盘频繁损坏导致的数据丢失给企业带来的损失也是不可忽视的重大问题。
据美国63个数据中心组织进行的一项研究显示,数据中心的停机费用在过去几年中显著增加,从2010年的5600美元/分钟增加到2016年的8851美元/分钟。以往基于磁盘SMART属性建立的各种磁盘故障预测模型,虽然取得了一定的效果,但是其在SMART属性选择、准确性以及模型的复用性上存在不足之处。
因此,本文提出了一个自动、精确的磁盘故障预测的方法,判断磁盘在接下来一段时间内需不需要替换。下面两个图展示的是有无替换预测的磁盘可用性示意图。左图代表的是传统的磁盘异常检测,磁盘状态开始变差后才检测到磁盘故障,这时的可用性已经降到了最低才开始更换磁盘。右图展示的是使用磁盘故障预测的情况,首先系统判断磁盘的状态即将要变差,然后工程师在磁盘可用性降低之前更换磁盘。通过这两个图的对比,我们可以看出提前预测磁盘故障可以降低故障对系统可用性的冲击。
磁盘故障预测的挑战
但是,