1、异常值集成方法:原理、应用与分类

异常值集成方法:原理、应用与分类

1 引言

异常值分析问题受到了数据库、数据挖掘、机器学习和统计学界的广泛关注。近年来,针对该问题提出了众多算法。然而,异常值检测的建模过程往往具有主观性,不同算法基于不同的假设,可能导致结果差异较大。而且,许多模型对参数选择极为敏感,加上缺乏真实标签,使得异常值检测算法的评估和参数调优变得困难。

集成分析是数据挖掘中常用的方法,用于减少模型对特定数据集或数据局部性的依赖,提高数据挖掘过程的鲁棒性。该技术在聚类和分类等问题中应用广泛,常见的集成方法如下:
- 聚类方面 :替代聚类、多视图聚类和聚类集成是与集成分析密切相关的子主题。其核心思想是聚类过程具有主观性,单一聚类可能无法全面反映数据的聚类情况,因此需要探索不同的聚类并组合结果。例如,极端随机聚类森林(ERC - Forest)与隔离森林这种异常值集成方法密切相关。
- 分类方面 :提出了多种基于集成的方法,如装袋(Bagging)、提升(Boosting)、堆叠(Stacking)、随机森林(Random Forests)、模型平均(Model Averaging)和模型桶(Bucket of Models)等。在噪声和流式场景中,集成分析尤为重要,因为单个分类器的结果可能不够稳健。

2 异常值分析中集成方法的动机

尽管现有许多异常值分析的集成方法具有很大潜力,但在该领域的成功尚未得到广泛认可。这主要是因为异常值分析的评估较为困难,缺乏明确的评估标准。

2.1 评估困难的原因

  • 小样本空间
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值