作者:DellEMC中国研发集团翁凌冬 刘冰
摘要
用户更加关注存储系统的性能和可靠性。尽管存储系统设计了一系列机制来抵御磁盘故障。实现可靠性目标仍然面临许多挑战。本文针对磁盘故障预测问题,提出了一种企业级的机器学习解决方案。磁盘数据集来自DellEMC的AutoSupport(ASUP)数据库。该数据集包含了2014-2018年57914个SAS盘的数据。结果表明所选择的机器学习模型,随机森林能够提前14天预测90%左右的故障,误报率在0.5%以下,可以带来良好的业务价值,满足客户对存储系统的需求。
关键词:机器学习; 客户体验;硬盘故障预测
1. 简介
磁盘故障严重影响了存储系统的可靠性。一旦磁盘发生故障,它不仅会造成暂时的数据丢失,还会造成永久性的数据丢失。因此,能够主动识别有问题的磁盘对存储可靠性至关重要。主动预测磁盘故障在业界有着悠久的历史。主要有三种方法:阈值法、统计方法和机器学习。大部分的工作都是利用磁盘的Self-Monitoring,Analysis and Reporting Technology(SMART)信息。SMART存在于大多数硬盘中,报告硬盘的多项数据。
通过机器学习预测磁盘故障只是研究过程中的一部分,其长期目标是在磁盘完全失效之前识别和替换故障磁盘,改进存储系统性能,并将客户的损失降到最低。本文提出了一种基于随机森林方法预测方法,且准确率高。到目前为止,我们已经完成了三项工作。第一,数据处理,包括从ASUP数据库中提取数据和数据去噪。第二,选择随机森林算法构建机器学习模型。第三,通过优化超参数对机器学习模型调优。分析结果显示我们的随机森林模型能够有效的提升系统的可靠性并减少客户的损失。
2 机器学习模型
在本研究中,我们利用数据库中的数据,通过随机森林的方法建立了能够提前多天预测磁盘故障的模型。该模型具有好的预测性能的同时,用户可以分析导致磁盘故障的主要因素。图1是模型构建过程。
![ea5c5859c0dc16a33bdd0663736e7084.png](https://img-blog.csdnimg.cn/img_convert/ea5c5859c0dc16a33bdd0663736e7084.png)
2.1 测试方法
每块磁盘都有许多按时间戳排序的样本。测试方法通过每个样本预测结果确定磁盘是否失败。测试时只观察时间窗口(一个超参数)的数据并依次预测该时间窗口内的数据。一旦其中一个样本被预测为“坏盘”