离群值是什么意思_离群值!离群值?离群值!

离群值(outliers)是指数据中与其他观测值明显不同的观测值,其判断依赖于具体情境。离群值对数据分析有显著影响,可能导致统计结果偏差。常见的离群值处理方法包括对数转换、缩尾、截尾和插值。对数转换能减少离群值影响,缩尾和截尾通过替换或删除离群值,插值则利用数据相关性赋予离群值新值。处理离群值的选择应根据研究需求和方法特点来定。
摘要由CSDN通过智能技术生成

作者:吴世飞 | 连玉君 ( 知乎 | 简书 | 码云 )

Note: 助教招聘信息请进入「课程主页」查看。因果推断-内生性 专题 ⌚ 2020.11.12-15 主讲:王存同 (中央财经大学);司继春(上海对外经贸大学)空间计量 专题 ⌚ 2020.12.10-13 主讲:杨海生 (中山大学);范巧 (兰州大学)

1. 何谓离群值?

离群值 (outliers)

是指在一份数据中,与其他观察值具有明显不同特征的那些观察值。

然而,并没有一个明确的准则来判断哪些观察值属于“离群值”。这主要取决于多种因素。

比如,下图中:姚明算不算离群值?

郭敬明呢?

杨幂呢?

刘翔呢?

对于姚明算不算离群值?,这本身就是一个非常不严谨的问题。

因为,我们可以找到很多变量来描述姚明的特征,比如身高、颜值、智商、情商、跑步速度、沟通能力,等等。

可能所有看到图片的读者的第一反应都是,姚明好高!如果据此推断“姚明的身高是离群值”,那你实际上潜意识里把图片中四人的身高构成的样本视为从一个更大的母体中的随机抽样。换言之,你将普通人的身高作为分析对象。此时,基本上可以认为姚明是离群值。

以我自己的经历而言,我从16 岁停止长身高开始,到现在过去了 20 多年,亲眼见过的人应该不少于 10000 人了。其中只有 3-5 位身高超过 2 米,最高的那位身高 2.10 米,曾是广东排球队的队员。根据 NBA 的官方统计,姚明的身高是 2.26 米。这意味着,若以普通人的身高作为母体来随机抽样,抽取的 10000 个观察值中身高超过 2.26 米的概率是接近于 0 ( 0/10000 = 0)。

若将对照组调整为 NBA 球员,情况又如何呢?在 NBA 的官网上可以看到,2002-2003 赛季所有 413 个球员中,姚明身高位列第二。

然而,若我们将对照组改为“NBA中锋” ,从下图可以看到, NBA 中锋的平均身高为 2.11 米。由于不知道标准差,所以无法判断具体的分布,但可以想象,姚明站在一群 NBA 中锋中,虽然仍是高个儿,但若说他的身高是离群值,怕是有不少中锋会不高兴。

如果抛开身高,从其他特征来看,比如沟通能力,智商等,姚明可能都不能算做离群值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值