Outlier Detection

1)正态分布数据,飘出95%的可能是异常值.变量var正态标准化,|var|<=1.96的可能是异常值,further chk needed!large sample better.
对于偏态分布的数据(histogram chk),这个方法貌似不是很好.

 

2)Boxplot Method
稳健,无正态分布假设.
箱线图判断异常值的标准以四分位数和四分位距为基础.
四分位距(QR, Quartile range):上四分位数与下四分位数之间的间距,即上四分位数减去下四分位数.
F代表中位数,QR代表四分位距.
在Q3+1.5QR(四分位距)和Q1-1.5QR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限.
在F(中位数)+3QR和F-3QR处画两条线段,称其为外限.
内限外限之间为弱异常值(Mild Outliers),外限之外为强异常值(Extreme Outliers)

http://blog.sina.com.cn/s/blog_7dc56e6e0100qzra.html

 

3)格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法

Grubbs' test for outliers
normality assumption
sample size greater than 6
the maximum normed residual test

http://en.wikipedia.org/wiki/Grubbs'_test_for_outliers

 

Dixon's Q test
once in a data set
arrange the data in order of increasing values and calculate Q as defined: Q=gap/raneg, Where gap is the absolute difference between the outlier in question and the closest number to it. if calculated Q > table Q then reject the questionable point.
http://en.wikipedia.org/wiki/Dixon's_Q_test

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值