R语言Outliers异常值检测方法比较

136 篇文章 3 订阅

全文链接:http://tecdat.cn/?p=8502

原文出处:拓端数据部落公众号

识别异常值的方法有很多种,R中有很多不同的方法。 

关于异常值方法的文章结合了理论和实践。理论一切都很好,但异常值是异常值,因为它们不遵循理论。如果一种方法发现我们都认同的异常值,那么这种方法可以认为是不错的。

异常值概述(O3)图旨在帮助比较和理解异常值方法的结果。

Stackloss数据集的O3图。每个变量组合(由左边的列定义)一行,找到了异常值,并将每个案例的一列标识为异常值(右边的列)。

威尔金森的算法为整个数据集找到了6个离群值(图的最下面一行)。总体而言,对于各种变量组合,发现14个案例是潜在的异常值 。 

O3plot,用于比较标识的异常值

 

在OutliersO3中有四种其他方法可用, :

##    HDo    PCS    BAC adjOut    DDC    MCD
##    14      4      5      0      6      5

 

 

R中还有其他异常方法,他们会给出更多不同的结果。必须谨慎。离群值本身可能是有趣的,但也可能判断错误。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值