零基础掌握“辛普森悖论及因果关系”通俗易懂

辛普森悖论揭示了在数据分析中,整体统计结果可能与各子群体结果相反的情况。通过一个药物实验的例子,解释了在男性和女性患者中,药物效果看似矛盾的现象。悖论的出现源于数据背后的性别差异,提醒我们在分析时需注意潜在的因果关系和样本平衡。此悖论强调了相关性不等于因果性,并提供了避免错误结论的思考方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


一.辛普森悖论的通俗解释

  • 通俗解释其实就一句话,“存在这样的数据,总体上的统计结果与其每一个子部分的统计结果相反”,我知道有的伙伴还没有听懂,比如说“子部分”是个啥等问题,没事,下面我给大家举例子,保证大家一定能听懂!!!

二.通俗易懂的例子说明

我们就用1951年辛普森使用的经典例子,“一组患者可以选择是否尝试一种新药”来说明。先给大家看数据吧!

案例
总共的志愿者有700个人(相当于小白鼠),分为两个组,第一组给350个人服用新生产的药物,第二组给另外350个人不用药物(或者说服用糖之类的东西,俗称安慰剂)。服药的第一组350个人中,男性患者87位,女性患者350-87 =263位。未服药的第二组350个人中,男性患者270位,女性患者350-270=80位,实验结果如表2.1所示:
表2.1试验结果
首先,咱直接看总数据,服药的患者痊愈率是78%,未服药的患者痊愈率是83%,这乍一看,平常人就会说:“你这药不好使呃,还不如我这不吃药的痊愈率高呀!”但是大家你仔细观察这个表里的数据,咱先看男性的哈,你会发现在服药的患者中,男性患者的痊愈率是93%,而未服药的男性患者痊愈率是87%,这一点服药的赢了吧,证明这药是不是挺好使的!咱再看女性的,女性服药的患者痊愈率是73%,而未服药的患者痊愈率是69%,看女性这一单元也是服药的效果大于不服药的效果呀!

奇怪的是:整体的效果而言,竟然是不服药的效果好,这与我们的主观尝试明显特么不符合呃!就相当于举行铁人三项比赛,每一项我都是冠军,都是第一名,结果算总成绩的时候,我竟然是第二名,我特么的输了!这种现象就是著名的辛普森悖论,大家现在再看一下我一开始的通俗解释,是不是就懂了?

辛普森悖论通俗解释:“存在这样的数据,总体上的统计结果与其每一个子部分的统计结果相反。”

不知道大家是不是想知道这违反常理的现象是为什么呢?想知道的就继续往下看吧!


三.为什么会出现辛普森悖论?

不墨迹,直接给出答案:就拿刚才讲的案例来说,是因为性别的原因,具体来说是因为女性患者的问题!

单纯从数据的角度来说,你会发现此次服用药物患者的350人和不服用药物的350人中,男女比例是不一样的,如果我们控制服用药物的和不服用药物的男女比例相同,那么就不会出现辛普森悖论了!

如果从更深层次的原因说明,女性患者身体中的雌性激素过多,而雌性激素会抑制药物的效果,所以你从数据里可以看出,女性患者服药后痊愈的效果不如男性患者服药的效果好!

“不知道大家有没有恍然大悟的感觉,太神奇了~哈哈”,这可能就是科学魅力所在吧。

四.辛普森悖论给我们什么启示

  • 第一个启示就是我们常说的“相关性并不是因果性”,但是现在好多人都说相关性就是因果关系,这是错误的,如果只是单纯的进行统计学的公式计算,不考虑因果的问题,我们就得出了错误的结论了!服药没用!可是服药是有用的呀!

    这里再给大家举一个例子,冰淇淋的售卖多少与杀人罪犯杀人的多少,从真实的调查数据中,得出的是只要夏天售卖的冰淇淋越多,被谋杀的人就愈多,单纯从统计学角度来说,他们俩具有很强的相关性,但是你能说他俩之间有因果性吗?难道如果你想减少杀人的多少,就不让小贩买冰淇淋就行了?显然是可笑的呀

    我想大家可能才出来原因了,没错,是背后隐藏的天气温度才是真正的因果关系。大家看图或许就能明白了,如图4.1
    图4.1真正的因果关系

  • 第二个启示就是说为了以后避免这种错误,我们需要了解数据背后的原因,就比如说利用因果机制

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Vip__Miracle

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值