辛普森悖论

辛普森悖论揭示了统计分析中分组数据可能导致与总体结论相反的现象。文章通过餐厅推荐率的例子说明,即使在各分组中表现更好的一方,在总体上可能并非最优。数学逻辑表明部分数据的结论不等同于整体数据的结论,提醒我们在面对数据时要理性思考,避免片面判断。这一悖论在购物选择、自我认知等方面都有启示作用,指出深入理解数据和情境的重要性。
摘要由CSDN通过智能技术生成

辛普森悖论是一个很有趣的统计学现象。对于研究某个事物的性质时,进行分组研究,分组的结果和总计的结果会产生截然相反的结论。这违背人类直觉,但从逻辑上却无可挑剔。

当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方,这种现象被称为辛普森悖论

看个例子,现在有两个餐厅,Carlo’s餐厅和Sophia餐厅,你打算比较一下两个餐厅到底哪个更好。接下来拿出APP看推荐率,发现男性用户的推荐率和女性用户的推荐率都是Carlo’s餐厅高,那么是否意味着Carlo’s餐厅更好呢?下面看一下表格:

\ Sophia餐厅推荐率(推荐数/总数) Carlo’s餐厅推荐率(推荐数/总数)
男性 50/150=30% 180/360=50%
女性 200/250=80% 36/40=90%
总数 250/400=62.5% 216/400=54%

上面的表格看起来很清楚,如果分男女组来看,Carlo’s餐厅看起来更好,但是把数据合并后,Sophia餐厅才是最优。这种现象虽然违反人类直觉,但是将其列出却很容易解释,Carlo’s餐厅推荐率高达90%的组,样本只有40个,Sophia餐厅推荐率80%的组,样本却有200个,在样本数量上占了极大优势,对拉高整体的推荐率影响更大。

从数学上来看,这个逻辑更加简单:

a b > c d , e f > g h \frac{a}{b} > \frac{c}{d}, \frac{e}{f} > \frac{g}{h} <

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值