stata怎么判断是否存在异常值_寻找离群值

本文介绍了如何使用Stata通过箱型图、双变量箱型图和多元变量检测方法来查找数据中的异常值。通过实例展示了如何结合不同变量判断离群值,并探讨了不同检测方法的主观性和结果差异。
摘要由CSDN通过智能技术生成

在上一篇文章的最后,我们简单提及了离群值(outliers)(或称之为异常值)。“关于离群值的两个重要问题就是:‘如何找到它们?’以及‘如何处理它们?’”(“The two big questions about outliers are ‘how do you find them?’ and ‘what do you do about them?’” (Ord, 1996))。 本文将讨论第一个问题。

提要

1. 箱型图(box)2. 双变量箱型图3. 多元变量检测4. 另一个例子5. 总结

1. 箱型图(box)

在上一篇文章的最后,我们介绍了箱型图的绘制,并简单提及了箱型图可以用来检测离群值的。

我们用Stata自带的auto.dta数据进行说明。导入该数据集之后,绘制出汽车价格price的箱型图。

1sysuse auto.dta, clear
2graph box price, marker(1, mlabel(price))

其中,marker()选项用于设定位于箱体上下引线之外的值(outside values)的外型,在这里我们给这些值添加了标签,标签上的值为其价格。结果如下:

508b9f758aaf80c4ad0760576c2b344b.png

可以看到,变量price有许多超过箱体上引线的值:这些outside values最大的为15906,最小的为9690。那么这些值是离群值么?

从生活常识上来说,如果一辆奥迪的售价是100万,我们一点也不会吃惊;而如果一辆奥拓的售价为100万,估计就可以上热搜了。

这就表明,单纯地从某一个变量的分布特征来判断其是否为离群值是有失偏颇的。

因此,我们可以结合其他变量来判断某些值是否是离群值。

2. 双变量箱型图

根据最基本的常识(

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值