辛普森悖论简单解释

辛普森悖论简单解释

引自:https://www.bilibili.com/video/BV1sJ41177sg?p=2
UC Bekeley 研究生录取男女性别歧视的问题:
1.问题背景:1973年秋季入学 女性同学因男女的录取率男性高于女性认为不公向校长申诉
在这里插入图片描述

在学校层面上,单纯从数据上看确实男性的录取率要高于女性。
但在每个系单独拿出来,却显示出了不同的结果,大部分系普遍女性的录取比例高于男性。

在这里插入图片描述
普遍存在这种现象,如锻炼和胆固醇的变化情况可能受到年龄这个混淆因子(这个之后再说)的影响
在这里插入图片描述
在这里插入图片描述

下面举例子说明这种产生现象的原因:男性和女性用药单独来看用药普遍对恢复有帮助(即男性和女性用药恢复的比例都是比不恢复的比例要高),但是在整体上看的话不考虑性别却显示用药恢复的比例比不恢复的比例要低,貌似产生了矛盾(假如一名医生知道是男是女然后告诉他(她)要吃药,吃药是有帮助的,假设不知道性别告诉他(她)吃药是没有帮助的,显然是荒谬的)。

在这里插入图片描述
在这里插入图片描述

下面从概率的角度来解释这个现象:

在这里插入图片描述
如上图所述,可以将A看成q和1-q的组合,可以适当取q和q’
在这里插入图片描述
需要将性别这个混淆因子去除,就需要分类去推因果关系
重点:
(1)统计结论反转是因为存在混淆变量
(2)混淆变量同时影响原因和结果,观测数据中性别可以同时影响用药和恢复
用药的人可能大部分是某个特定的性别,而这个性别的人有可能恢复较差,因此导致用药和恢复之间相反的相关性
(3)如果存在混淆变量,正确的方法是看关于这个变量的分组数据,这样就可以去除混淆变量的影响

2.另一种情况是一方面治疗通过降低血压改善恢复,另一方面会对恢复产生副作用
在这里插入图片描述

在这种情况下探究治疗对恢复的影响的情况,我们应该看整体数据而不是分类数据
原因如下:
如果考虑分类数据 在高血压和低血压两种情况下分别考虑对恢复的影响的话,其实相当于将混淆因子Blood Pressure去除,而去除以后就只考虑治疗对恢复的影响,治疗对恢复产生的影响只有负面影响,这样显然是不合理的(忽略了用药通过降低血压促进恢复的影响)

  • 4
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值