离群点检测方法_离群点检测方法总结

本文介绍了离群点检测方法,重点讲解了Isolation Forest和LOF算法。Isolation Forest利用孤立树构造二叉搜索树,通过样本点的路径长度判断异常值。LOF则是通过局部可达密度比较点的异常程度。这两种方法在异常检测中具有不同的应用场景和优缺点。
摘要由CSDN通过智能技术生成

3c7aeda7f6977888e6bcf9bf579d09e9.png

传统异常值检测

  • 图形位置分布
  • 例如箱线图检测异常值
  • 统计方法检测:假设全量数据服从一定的分布,比如常见的正态分布,泊松分布等;在计算每个点属于这个分布的概率
  • 距离检测:假设正常的数据比较集中,有较多的邻居,而异常数据特立独行,常用的有连续特征间的欧氏距离(标准化下的欧氏距离(马氏距离));名义变量下的余弦相似度

Isolation Forest

无监督异常检测(anomaly detection),或者又被称为离群点检测。

  1. 异常数据分样本中大多数数据不太一样
  2. 异常数据在整体数据样本中占比比较小

异常数据的不同,可以利用各种统计的、距离的、密度的量化指标去描述数据样本跟其他样本的疏离程度

孤立森林算法是一种适用于连续数据的无监督异常检测方法。与其他异常检测算法通过距离、密度等量化指标来刻画样本间的疏离程度不同,孤立森林算法通过对样本点的孤立来检测异常值。具体来说,该算法利用一种名为孤立树iTree的二叉搜索树结构来鼓励样本。由于异常值的数量较少且与大部分样本的疏离性,因此,异常值会被更早的孤立起来,也即异常值会距离iTree的根节点更近,而正常值则会距离根节点有更远的距离。此外,相较于LOF,K-means等

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值