数据会骗人:辛普森悖论

当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年E.H.辛普森在他发表的论文中,该现象才算正式被描述解释。后来就以他的名字命名该悖论。

一所美国高校的两个学院,分别是法学院和商学院,新学期招生。人们怀疑这两个学院有性别歧视。现作如下统计:

法学院

性别录取拒收总数录取比例
男生8455315.1%
女生5110115233.6%
合计59146205 

商学院

性别录取拒收总数录取比例
男生2015025180.1%
女生92910191.1%
合计29359352 

根据上面两个表格来看,女生在两个学院都被优先录取。即女生的录取比率较。现在将两学院的数据汇总:

性别录取拒收总数录取比例
男生2099530468.8%
女生14311025356.5%
合计352205557 

在总评中,女生的录取比率反而比男生

上面的数字太凌乱,可以直接看下面的数据:

  
历史系1/5<2/8
地理系6/8<4/5
总体7/13>6/13

借助一幅向量图可以更好的了解情况

女生单独两个矢量斜率都比男生大,说明它们的比率都比较高。但最后男生总体向量斜率却大于女生

这个例子说明,简单的将分组数据相加汇总,是不能反映真实情况的。

就上述例子说,导致辛普森悖论有两个前提。

  1. 两个分组的录取率相差很大,就是说法学院录取率很低,而商学院却很高。而同时两种性别的申请者分布比重相反。女性申请者的大部分分布在法学院,相反,男性申请者大部分分布于商学院。结果在数量上来说,拒收率高的法学院拒收了很多的女生,男生虽然有更拒收率,但被拒收的数量却相对不算多。而录取率很高的商学院录取了很多男生。使得最后汇总的时候,男生在数量上反而占优。
  2. 有潜在因素影响着录取情况。就是说,性别并非是录取率高低的唯一因素,甚至可能是毫无影响的。至于在学院中出现的比率差,可能是随机事件。又或者是其他因素作用,比如入学成绩,却刚好出现这种录取比例,使人牵强误认为这是由性别差异而造成的。

为了避免辛普森悖论的出现,就需要斟酌各分组的权重,并乘以一定的系数去消除以分组数据基数差异而造成的影响。同时必需了解清楚情况,是否存在潜在因素,综合考虑。

参考地址:

http://zh.wikipedia.org/wiki/%E8%BE%9B%E6%99%AE%E6%A3%AE%E6%82%96%E8%AE%BA

http://plato.stanford.edu/entries/paradox-simpson/#Causation

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值