一.辛普森悖论的通俗解释
- 通俗解释其实就一句话,“存在这样的数据,总体上的统计结果与其每一个子部分的统计结果相反”,我知道有的伙伴还没有听懂,比如说“子部分”是个啥等问题,没事,下面我给大家举例子,保证大家一定能听懂!!!
二.通俗易懂的例子说明
我们就用1951年辛普森使用的经典例子,“一组患者可以选择是否尝试一种新药”来说明。先给大家看数据吧!
案例:
总共的志愿者有700个人(相当于小白鼠),分为两个组,第一组给350个人服用新生产的药物,第二组给另外350个人不用药物(或者说服用糖之类的东西,俗称安慰剂)。服药的第一组350个人中,男性患者87位,女性患者350-87 =263位。未服药的第二组350个人中,男性患者270位,女性患者350-270=80位,实验结果如表2.1所示:
首先,咱直接看总数据,服药的患者痊愈率是78%,未服药的患者痊愈率是83%,这乍一看,平常人就会说:“你这药不好使呃,还不如我这不吃药的痊愈率高呀!”但是大家你仔细观察这个表里的数据,咱先看男性的哈,你会发现在服药的患者中,男性患者的痊愈率是93%,而未服药的男性患者痊愈率是87%,这一点服药的赢了吧,证明这药是不是挺好使的!咱再看女性的,女性服药的患者痊愈率是73%,而未服药的患者痊愈率是69%,看女性这一单元也是服药的效果大于不服药的效果呀!
奇怪的是:整体的效果而言,竟然是不服药的效果好,这与我们的主观尝试明显特么不符合呃!就相当于举行铁人三项比赛,每一项我都是冠军,都是第一名,结果算总成绩的时候,我竟然是第二名,我特么的输了!这种现象就是著名的辛普森悖论,大家现在再看一下我一开始的通俗解释,是不是就懂了?
辛普森悖论通俗解释:“存在这样的数据,总体上的统计结果与其每一个子部分的统计结果相反。”
不知道大家是不是想知道这违反常理的现象是为什么呢?想知道的就继续往下看吧!
三.为什么会出现辛普森悖论?
不墨迹,直接给出答案:就拿刚才讲的案例来说,是因为性别的原因,具体来说是因为女性患者的问题!
单纯从数据的角度来说,你会发现此次服用药物患者的350人和不服用药物的350人中,男女比例是不一样的,如果我们控制服用药物的和不服用药物的男女比例相同,那么就不会出现辛普森悖论了!
如果从更深层次的原因说明,女性患者身体中的雌性激素过多,而雌性激素会抑制药物的效果,所以你从数据里可以看出,女性患者服药后痊愈的效果不如男性患者服药的效果好!
“不知道大家有没有恍然大悟的感觉,太神奇了~哈哈”,这可能就是科学魅力所在吧。
四.辛普森悖论给我们什么启示
-
第一个启示就是我们常说的“相关性并不是因果性”,但是现在好多人都说相关性就是因果关系,这是错误的,如果只是单纯的进行统计学的公式计算,不考虑因果的问题,我们就得出了错误的结论了!服药没用!可是服药是有用的呀!
这里再给大家举一个例子,冰淇淋的售卖多少与杀人罪犯杀人的多少,从真实的调查数据中,得出的是只要夏天售卖的冰淇淋越多,被谋杀的人就愈多,单纯从统计学角度来说,他们俩具有很强的相关性,但是你能说他俩之间有因果性吗?难道如果你想减少杀人的多少,就不让小贩买冰淇淋就行了?显然是可笑的呀
我想大家可能才出来原因了,没错,是背后隐藏的天气温度才是真正的因果关系。大家看图或许就能明白了,如图4.1
-
第二个启示就是说为了以后避免这种错误,我们需要了解数据背后的原因,就比如说利用因果机制!