周浩 南开大学硕士论文 基于无监督学习的固态硬盘存储系统主动容错机制
A Proactive Failure Tolerant Mechanism for SSDs Storage Systems based on Unsupervised Learning
1.摘要
提出一种基于无监督技术的固态硬盘存储系统主动容错机制。该方法仅使用常规固态硬盘的数据来训练故障预测模型。
核心思想:使用VAE--LSTM学习正常SSD的模式,当故障SSD的模式与正常SSD的模式不同时,可以发出警报。
2.引入
论文分析了传统的基于监督模型的SSD故障预测方法,大部分将SSD故障预测视为分类问题,但由于正负样本不均衡问题的局限,传统的监督模型效果并不理想,因此本文提出使用无监督模型,只针对正常样本进行训练。
3.相关工作
先前的工作归为两类:二进制故障预测和驱动器健康预测。 二进制预测就是给出SSD“是”或者“否”要发生故障的结论。SSD健康预测描述在某一时刻的健康程度(剩余健康寿命或健康水平)
自动编码器
为了解决数据集样本正负不平衡问题,有人尝试将基于自动编码器的异常检测应用于硬盘故障预测,该方法不受限于正负样本的制约。(菜猴儿有话说:根据论文中对应的参考文献的文章,下载后这里所说的自动编码器指的就是GAN网络)
缺点:自动编码器结构简单,表征能力不足,(表征能力?)不能很好地处理SMART属性和时间的关系。
4 论文结构
1 挑战
SSD故障率低-------无监督模型做异常检测、只使用正常样本来处理数据不平衡(V AE)
如何训练健壮模型------LSTM来捕获SMART属性与时间依赖的关系
如何查找SSD故障原因-------提出一种方法?
2 贡献点
模型融合了V AE 和 LSTM,模型不受故障SSD数量的限制,LSTM可以很好的处理SMART值和时间属性的关系.
探讨了不同运行状况级别的无故障SSD数据集对训练的影响,设计了一种SSD健康状态评估方法,用于选取健康状态良好的ssd作为训练集。
提出了一种基于VAE-LSTM的SSD故障原因分析方法,可以帮助定位SSD故障的原因。
机制真正应用于在线环境。
3 机制流程
4 模型
模型核心主体V AE,它包括一个编码部分,一个解码部分。为了给模型增加健壮性,在编码和解码部分都分别引入了LSTM网络来负责时间依赖性(虽然我也不清楚时间依赖性)
5 离线训练----健康状态的判断
PCA-based模型:将数据映射到低维空间,计算低维空间中原始数据的偏差作为异常得分,异常(偏差)越大,性能状况越差。本文使用偏差和作为最终的健康状态判断依据:
得分结果越高,说明SSD健康状态越差
选择中等健康程度的作为最终的训练集(黄色)
5 数据集介绍
6 评价准则基准
7 训练、预测结果分析