内含动画的PPT已经上传,可以在我上传的资源里看到,可免费下载
该篇论文主要围绕“异常检测+硬盘故障预测+GAN+非监督”展开,以下是个人对整篇文章脉络的整理和理解。
文章目录
一、论文概括
- 研究对象
- 目的
- 方法
- 结论
- 结果
二、相关的研究
- 方法及问题
- 问题的原因分析
- 前人的具体研究方法和结果
三、论文主体——提出基于LSTM的非监督对抗学习方法
- 异常检测流程
- 作者所构建的模型结构(包括编码器具体的内部结构LSTM+FC)
- 模型的训练过程
- 包括各个损失函数的定义
- L1损失函数
- L2损失函数
- 二分类交叉熵损失函数
- 模型的验证过程
- 异常分数的定义
- 缩放
- F1的计算
- 阈值的确定
- 模型的测试过程
- 评价指标及实验结果
2020.9.8补充《关于实验部分》
1、实验比对
实验选择与单类支持向量机(OCSVM)、孤立森林、GANomaly、LSTM-CNN、LSTM-FC(本文方法)做对比。
(1)单类支持向量机是一种基于非监督学习的异常检测方法,训练时只使用一类数据,常用于解决多维的不均衡数据的异常检测。
(2)孤立森林也是一种在多维数据集中进行异常检测的有效方法,通过随机选择一个特征,然后在所选特征的最大值和最小值之间随
机选择一个分割值来“隔离”样本实现非监督的异常检测。
2、数据集
两个硬盘数据集
(1)4TB 的希捷ST4000DM000
(2)12TB 的希捷ST12000NM0007
(3)实验将两个数据集分别分割成训练集 Dtrn、验证集Dvrf和测试集 Dtst三个子集,其中 Dtrn只含正常样本(normal),Dvrf和 Dtst含有比例不均衡的正常样本和异常样本(anormal)
3、实验设置
(1)Pytorch 3.6 上实现
(2)使用Adam 优化器
(3)学习率r =0.00001,损失函数的权重w1 =w2 =w3 =1,
(4)LSTM 的隐含层维度设为h =250,潜在向量z 的维度设为nz =200
(5)训练的轮数根据经验设为5000。
4、实验结果对比
(1)五种方法在两个数据集上的实验结果比对
(2)三种深度学习方法GANomaly、LSTM-CNN 、LSTM-FC验证阶段的感受性曲线和异常分数的分布图
从图 3 可以看出 LSTM-FC 的感受性曲线更饱满,其对应的曲线下面积也就越大,与表 2 和表 3 记录相一致;
从图 4 可以看出 LSTM-FC 的异常分数分布最清晰,有利于阈值的选取,且在测试阶段性能也会更稳定;
GANomaly 的异常分数分布最差,这也是其验证阶段曲线下面积高于 LSTM-CNN 但测试结果却不如后者的原因。