异常值集成方法:原理、应用与分类
1 引言
异常值分析问题受到了数据库、数据挖掘、机器学习和统计学界的广泛关注。近年来,针对该问题提出了众多算法。然而,异常值检测的建模过程往往具有主观性,不同算法基于不同的假设,可能导致结果差异较大。而且,许多模型对参数选择极为敏感,加上缺乏真实标签,使得异常值检测算法的评估和参数调优变得困难。
集成分析是数据挖掘中常用的方法,用于减少模型对特定数据集或数据局部性的依赖,提高数据挖掘过程的鲁棒性。该技术在聚类和分类等问题中应用广泛,常见的集成方法如下:
- 聚类方面 :替代聚类、多视图聚类和聚类集成是与集成分析密切相关的子主题。其核心思想是聚类过程具有主观性,单一聚类可能无法全面反映数据的聚类情况,因此需要探索不同的聚类并组合结果。例如,极端随机聚类森林(ERC - Forest)与隔离森林这种异常值集成方法密切相关。
- 分类方面 :提出了多种基于集成的方法,如装袋(Bagging)、提升(Boosting)、堆叠(Stacking)、随机森林(Random Forests)、模型平均(Model Averaging)和模型桶(Bucket of Models)等。在噪声和流式场景中,集成分析尤为重要,因为单个分类器的结果可能不够稳健。
2 异常值分析中集成方法的动机
尽管现有许多异常值分析的集成方法具有很大潜力,但在该领域的成功尚未得到广泛认可。这主要是因为异常值分析的评估较为困难,缺乏明确的评估标准。
2.1 评估困难的原因
- 小样本空间