ATAD

最新推荐文章于 2022-07-08 10:48:44 发布

2B不是铅笔_0716

最新推荐文章于 2022-07-08 10:48:44 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/weixin_37010890/article/details/97614356

版权

4.实验

评估ATAD方法的有效性，目标：

ATAD方法的有效性如何
转移学习效果
主动学习效果

4.1

数据集：NAB和YAHOO

NAB是一种新型的流媒体实时异常检测算法评估基准，包含许多数据集如AWS，Twitter和Artificial。
YAHOO数据集由真实数据和合成的时间序列组成。（此处使用的是真实数据集。）实际数据集由表示各种Yahoo服务度量的时间序列组成。所有数据集都以时间序列的形式给出，并且每个数据点都被手工标记。这些时间序列的长度从数百到数千不等。异常的比例约为1%。在实验中，只使用Yahoo (real)、AWS、Artificial和Twitter作为目标域中的未标记数据集。这种选择有两个原因：
首先，这些数据集与云监控数据相关。
其次，这些数据集的规模相对较大，异常点也比其他数据集多很多。更多的详细信息。dataset如表4所示。每个数据集中都有多个时间间隔。
数据集比例
执行跨数据集异常检测。对四对数据集进行了实验，包括非Yahoo→Yahoo、非AWS→AWS、非Twitter→Twitter。和非Artificial-Artificial。箭头的右侧表示未标记的数据集，即目标域，箭头左侧表示标记的数据集。在培训和迁移学习过程中，不使用目标领域的标签，它只用于主动学习和评估。

4.2评估标准

F1-score

4.3评估结果

4.3.1 ATAD性能

使用无监督学习方法进行对比：隔离森林(Isolation Forest)，K-Sigma，Seasonal Hybrid ESD(S-H-ESD)
(只取最高的F1-Score)

ATAD可以在AWS、Twitter和Artifical数据集上获得超过0.9的f1分。雅虎数据集异常数最多，ATAD对其结果略弱，但仍优于相关方法。可以看出，K-Sigma、隔离林、Seasonal Hybrid ESD均不能达到令人满意的结果(f1 - score均小于0.6123)。
与无监督学习的对比
利用随机森林建立了基于监督学习的异常检测模型，并与ATAD进行了比较。将样本直接标记在目标域中，并在这些样本上训练监督模型。然后，当ATAD和su模型达到类似性能时，对标记的样本数量进行比较。对ATAD来说，这是一个巨大的挑战，因为与具有更多标记数据的监督模型相比，这是不公平的。

可以看到，只需要在目标域中标记几个样本，就可以达到与监督方法类似的性能。监督模型所需的样本量是ATAD的10~20倍(如图5所示)。
首先，进行转移学习，将所学的知识从源领域转移到目标领域。因此，目标域中只需要少量的标签信息。
其次，设计了UCD主动学习算法，推荐信息量最大的样本进行标注，提高了基模型的精度。

与监督学习的对比

4.3.2转移学习的性能

从三个方面来评估：

有无转移学习对ATAD的性能的影响
识别特征的有效性
聚类方法的有效性

4.3.2.1有无转移学习对ATAD的性能的影响

首先将ATAD与转移学习进行比较。
无转移学习的ATAD意味着直接对原始标记数据集应用主动学习(不使用迁移学习组件)。
有迁移学习的ATAD取得的f1分始终高于没有迁移学习的ATAD(平均性能提升37%)，证实了迁移学习组件的有效性。
产生这些结果的原因是：原始标记数据和未标记数据有不同的分布。
如果直接在原始标记数据上训练基模型，这种分布差异会导致精度的损失。转移学习可以寻找与未标记样本相似的标记样本，并对基模型进行训练，因此有转移学习的ATAD的结果优于无转移的ATAD。
转移学习对ATAD的影响
还试验了对源域数目是否敏感的问题：
转移学习对源域数目是否敏感

4.3.2.2识别特征的效果

提出的转移学习是基于多种时间特征，包括预测误差特征和节拍特征。
传统的迁移学习只基于平均和方差等统计特征。
统计特征是独立于时间序列上下文的简单描述性值。也就是说，时间顺序的变化并不影响这些统计特征的价值。
为了评估ATAD中使用的特征的有效性，对四个数据集对进行了实验。使用统计特征和时间序列特征(预测误差特征和时间特征)来进行分类。
实验结果如表9所示。可以看出，单纯使用统计特征进行转移收益会导致较差的结果，当添加时间序列特征时，性能会变得更好。
原因是基于实例的迁移学习需要测量源域和目标域之间的距离。如果只提取统计特征，则忽略时间序列的特征。这种距离度量不能反映时间序列的相似性，因此转移学习的性能较差。当在ATAD中使用所有特性时，可以获得最佳的结果。
在这里插入图片描述

4.3.2.3聚类方法的性能

源域是否用聚类划分
想知道将所有标记的数据集作为一个单一数据源的结果，并将它们与使用集群生成的源域的结果进行比较。实验结果如表10所示。
通过聚类选择源域后，得到的结果与全标记数据集上得到的结果相似或更好。
原因是来自公共域的原始完整数据集可能与目标域有不同的分布/特征，并且可能包含一些不利于预测目标域的示例。
因此，在转移学习中选择相似的样本有助于提高目标域的预测精度。
在这里插入图片描述

4.3.3主动学习的性能

为了评估主动学习组件的有效性，使用了公共域的原始标记数据集，而不应用转移学习。并将所提出的UCD方法与传统的Uncer ainty方法(U)和随机选择方法(ran dom)进行了比较。实验结果如表11所示。在所有的实验中，我们进行了三轮的主动学习，每轮选择60个样本。为了避免[17]的数据泄漏问题，在整个主动学习过程中，将所有标记样本从测试集中移除。
在这里插入图片描述
主动学习几回合后的F-Score

对α值的分析(α值：代表时间序列的步长)
结果：对α值不敏感

统计了经过3轮积极学习后标记的样本数量。
第一列是标记的样本数量。可以看到，通过主动学习，只需要在所有未标记的数据集中标注一小部分(0.2% - 1.12%)，就可以大大提高基模型的有效性。
在这里插入图片描述

5有效的威胁(影响结果的因素)

数据质量：使用公共数据集进行评估，其可能含有少量噪声
标记的正确性：在现实中，ATAD要求用户手动标记几个百分比的数据，在现实中，标签的质量可能会有所不同。
数据泄露：为了避免数据泄露，将主动学习过程中标记的样本从测试数据集中移除。但实际偏差很小，几乎无影响。

6.实践中的教训

2B不是铅笔_0716

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
ATAD

4.实验评估ATAD方法的有效性，目标：ATAD方法的有效性如何转移学习效果主动学习效果4.1数据集：NAB和YAHOONAB是一种新型的流媒体实时异常检测算法评估基准，包含许多数据集如AWS，Twitter和Artificial。YAHOO数据集由真实数据和合成的时间序列组成。（此处使用的是真实数据集。）实际数据集由表示各种Yahoo服务度量的时间序列组成。所有数据集都以时间...
复制链接

扫一扫