辛普森悖论

最新推荐文章于 2022-04-13 10:29:28 发布

qian99

最新推荐文章于 2022-04-13 10:29:28 发布

阅读量1.4k

点赞数 1

分类专栏： Other 文章标签：统计学

本文链接：https://blog.csdn.net/qian99/article/details/105632837

版权

辛普森悖论揭示了统计分析中分组数据可能导致与总体结论相反的现象。文章通过餐厅推荐率的例子说明，即使在各分组中表现更好的一方，在总体上可能并非最优。数学逻辑表明部分数据的结论不等同于整体数据的结论，提醒我们在面对数据时要理性思考，避免片面判断。这一悖论在购物选择、自我认知等方面都有启示作用，指出深入理解数据和情境的重要性。

摘要由CSDN通过智能技术生成

辛普森悖论是一个很有趣的统计学现象。对于研究某个事物的性质时，进行分组研究，分组的结果和总计的结果会产生截然相反的结论。这违背人类直觉，但从逻辑上却无可挑剔。

当人们尝试探究两种变量（比如新生录取率与性别）是否具有相关性的时候，会分别对之进行分组研究。然而，在分组比较中都占优势的一方，在总评中有时反而是失势的一方，这种现象被称为辛普森悖论。

看个例子，现在有两个餐厅，Carlo’s餐厅和Sophia餐厅，你打算比较一下两个餐厅到底哪个更好。接下来拿出APP看推荐率，发现男性用户的推荐率和女性用户的推荐率都是Carlo’s餐厅高，那么是否意味着Carlo’s餐厅更好呢？下面看一下表格：

\	Sophia餐厅推荐率(推荐数/总数)	Carlo’s餐厅推荐率(推荐数/总数)
男性	50/150=30%	180/360=50%
女性	200/250=80%	36/40=90%
总数	250/400=62.5%	216/400=54%

上面的表格看起来很清楚，如果分男女组来看，Carlo’s餐厅看起来更好，但是把数据合并后，Sophia餐厅才是最优。这种现象虽然违反人类直觉，但是将其列出却很容易解释，Carlo’s餐厅推荐率高达90%的组，样本只有40个，Sophia餐厅推荐率80%的组，样本却有200个，在样本数量上占了极大优势，对拉高整体的推荐率影响更大。

从数学上来看，这个逻辑更加简单：

$\frac{a}{b} > \frac{c}{d}, \frac{e}{f} > \frac{g}{h}$