4.实验
评估ATAD方法的有效性,目标:
- ATAD方法的有效性如何
- 转移学习效果
- 主动学习效果
4.1
数据集:NAB和YAHOO
NAB是一种新型的流媒体实时异常检测算法评估基准,包含许多数据集如AWS,Twitter和Artificial。
YAHOO数据集由真实数据和合成的时间序列组成。(此处使用的是真实数据集。)实际数据集由表示各种Yahoo服务度量的时间序列组成。所有数据集都以时间序列的形式给出,并且每个数据点都被手工标记。这些时间序列的长度从数百到数千不等。异常的比例约为1%。在实验中,只使用Yahoo (real)、AWS、Artificial和Twitter作为目标域中的未标记数据集。这种选择有两个原因:
首先,这些数据集与云监控数据相关。
其次,这些数据集的规模相对较大,异常点也比其他数据集多很多。更多的详细信息。dataset如表4所示。每个数据集中都有多个时间间隔。
执行跨数据集异常检测。对四对数据集进行了实验,包括非Yahoo→Yahoo、非AWS→AWS、非Twitter→Twitter。和非Artificial-Artificial。箭头的右侧表示未标记的数据集,即目标域,箭头左侧表示标记的数据集。在培训和迁移学习过程中,不使用目标领域的标签,它只用于主动学习和评估。
4.2评估标准
F1-score
4.3评估结果
4.3.1 ATAD性能
使用无监督学习方法进行对比:隔离森林(Isolation Forest),K-Sigma,Seasonal Hybrid ESD(S-H-ESD)
(只取最高的F1-Score)
ATAD可以在AWS、Twitter和Artifical数据集上获得超过0.9的f1分。雅虎数据集异常数最多,ATAD对其结果略弱,但仍优于相关方法。可以看出,K-Sigma、隔离林、Seasonal Hybrid ESD均不能达到令人满意的结果(f1 - score均小于0.6123)。
利用随机森林建立了基于监督学习的异常检测模型,并与ATAD进行了比较。将样本直接标记在目标域中,并在这些样本上训练监督模型。然后,当ATAD和su模型达到类似性能时,对标记的样本数量进行比较。对ATAD来说,这是一个巨大的挑战,因为与具有更多标记数据的监督模型相比,这是不公平的。
可以看到,只需要在目标域中标记几个样本,就可以达到与监督方法类似的性能。监督模型所需的样本量是ATAD的10~20倍(如图5所示)。
首先,进行转移学习,将所学的知识从源领域转移到目标领域。因此,目标域中只需要少量的标签信息。
其次,设计了UCD主动学习算法,推荐信息量最大的样本进行标注,提高了基模型的精度。
4.3.2转移学习的性能
从三个方面来评估:
- 有无转移学习对ATAD的性能的影响
- 识别特征的有效性
- 聚类方法的有效性
4.3.2.1有无转移学习对ATAD的性能的影响
首先将ATAD与转移学习进行比较。
无转移学习的ATAD意味着直接对原始标记数据集应用主动学习(不使用迁移学习组件)。
有迁移学习的ATAD取得的f1分始终高于没有迁移学习的ATAD(平均性能提升37%),证实了迁移学习组件的有效性。
产生这些结果的原因是:原始标记数据和未标记数据有不同的分布。
如果直接在原始标记数据上训练基模型,这种分布差异会导致精度的损失。转移学习可以寻找与未标记样本相似的标记样本,并对基模型进行训练,因此有转移学习的ATAD的结果优于无转移的ATAD。
还试验了对源域数目是否敏感的问题:
4.3.2.2识别特征的效果
提出的转移学习是基于多种时间特征,包括预测误差特征和节拍特征。
传统的迁移学习只基于平均和方差等统计特征。
统计特征是独立于时间序列上下文的简单描述性值。也就是说,时间顺序的变化并不影响这些统计特征的价值。
为了评估ATAD中使用的特征的有效性,对四个数据集对进行了实验。使用统计特征和时间序列特征(预测误差特征和时间特征)来进行分类。
实验结果如表9所示。可以看出,单纯使用统计特征进行转移收益会导致较差的结果,当添加时间序列特征时,性能会变得更好。
原因是基于实例的迁移学习需要测量源域和目标域之间的距离。如果只提取统计特征,则忽略时间序列的特征。这种距离度量不能反映时间序列的相似性,因此转移学习的性能较差。当在ATAD中使用所有特性时,可以获得最佳的结果。
4.3.2.3聚类方法的性能
源域是否用聚类划分
想知道将所有标记的数据集作为一个单一数据源的结果,并将它们与使用集群生成的源域的结果进行比较。实验结果如表10所示。
通过聚类选择源域后,得到的结果与全标记数据集上得到的结果相似或更好。
原因是来自公共域的原始完整数据集可能与目标域有不同的分布/特征,并且可能包含一些不利于预测目标域的示例。
因此,在转移学习中选择相似的样本有助于提高目标域的预测精度。
4.3.3主动学习的性能
为了评估主动学习组件的有效性,使用了公共域的原始标记数据集,而不应用转移学习。并将所提出的UCD方法与传统的Uncer ainty方法(U)和随机选择方法(ran dom)进行了比较。实验结果如表11所示。在所有的实验中,我们进行了三轮的主动学习,每轮选择60个样本。为了避免[17]的数据泄漏问题,在整个主动学习过程中,将所有标记样本从测试集中移除。
主动学习几回合后的F-Score
对α值的分析(α值:代表时间序列的步长)
结果:对α值不敏感
统计了经过3轮积极学习后标记的样本数量。
第一列是标记的样本数量。可以看到,通过主动学习,只需要在所有未标记的数据集中标注一小部分(0.2% - 1.12%),就可以大大提高基模型的有效性。
5有效的威胁(影响结果的因素)
- 数据质量:使用公共数据集进行评估,其可能含有少量噪声
- 标记的正确性:在现实中,ATAD要求用户手动标记几个百分比的数据,在现实中,标签的质量可能会有所不同。
- 数据泄露:为了避免数据泄露,将主动学习过程中标记的样本从测试数据集中移除。但实际偏差很小,几乎无影响。