异常值集成中的方差与偏差减少方法解析
1. 异常值集成中的方差减少
1.1 方法性能分析
在异常值检测中,不同方法的性能表现各异。从 ROC AUC 的角度来看,平均法至少在该指标上会使性能变差。这是因为平均组合法旨在优化均方误差(MSE),而非 ROC AUC,在很多箱线图中可以发现,集成 AUC 低于使用平均函数的基础性能。
在各种方案中,子采样和装袋方法表现最佳,其中可变和几何变体的效果良好。对于许多数据集,按特征集成也特别有用,但需要注意的是,按特征采样方法与基于距离的检测器配合使用时,效果不如与某些类似直方图的方法配合使用时好。几何子采样方法(GR)结合旋转装袋技术效率极高,尤其是当使用基于距离的方法作为基础检测器时。此外,GR 方案在空间效率上表现出色,它能将极大的数据集压缩到极小的空间中,同时保持较高的准确性,在大数据和流式处理场景中非常实用。
1.2 总结与结论
在异常值集成中应用方差减少方法时,由于缺乏标签,可能会阻碍基础检测器的优化实施。例如,子采样方法随着数据量的减少,基础检测器的性能表现往往不确定,而在分类中,可以通过交叉验证结合真实标签来减少这种不确定性。
异常值集成与分类集成的显著区别在于真实标签的可用性。像可变和几何子采样等方法是专门为无监督问题设计的。实验结果表明,可变子采样优于固定子采样,旋转装袋技术优于特征装袋。
此外,还研究了一些新的组合方法,如使用中位数和阈值修剪。虽然这些方法在分类场景中可能提供更优的结果,但在异常值检测中并非总是如此。而其他组合函数,如 AOM 和 Thresh,由于能够同时减少偏差和方差,表现非常稳健。