每日一课 | 详解数据分析中违背常理的悖论：辛普森悖论

最新推荐文章于 2022-01-08 20:13:24 发布

Python大本营

最新推荐文章于 2022-01-08 20:13:24 发布

阅读量2.1k

点赞数 1

文章标签：数据挖掘人工智能数据分析机器学习大数据

Python大本营每日一课

大家好，本期7日专栏内容，营长将为大家分享新的内容知识，“数据分析”，营长邀请的是宿永杰，某知名互联网公司数据挖掘工程师，小伙伴们别忘记打卡哦。

数据分析中违背常理的悖论：辛普森悖论

DAY03

上期我们分享了每日一课 | 详解数据分析最爱用的估算法，不清楚的小伙伴可以点击查看详情哦！

在现实生活中，我们常常会遇到这样一种现象，当尝试研究两个变量是否具有相关性的时候，会分别对此进行分组研究。

然而，在分组比较中都显示非常有优势的一方，在总评时却成了失势的一方。直到 1951 年，英国统计学家 E.H.辛普森发表论文对此现象做了描述解释，后来人们就以他的名字命名该现象，即辛普森悖论。

思考下，辛普森悖论为什么成立？

辛普森悖论的原理

下面给出辛普森悖论的数学原理：

从数学表达式上，我们可以看出，对 a、b、c、d 四个变量，分成 1 组和 2 组，在 1 组比率占优势的情况下，总体占优势却不成立。

看一个例子：抖音 6 月与 7 月活跃人群得活跃时长对比，发现男性活跃时长上升，女性也上升，但是整体上 7 月活跃时长比 6 月降低是什么原因？

从数学表达式上，我们可以看出，对 a、b、c、d 四个变量，分成 1 组和 2 组，在 1 组比率占优势的情况下，总体占优势却不成立。

看一个例子：抖音 6 月与 7 月活跃人群得活跃时长对比，发现男性活跃时长上升，女性也上升，但是整体上 7 月活跃时长比 6 月降低是什么原因？

为了让结果更直观，我做了一个数据图，不是很标准，但是足以解释。

假设 6 月，活跃男生占比 20%，使用平均时长 1.2h；活跃女生占比 80%，使用平均时长 1.5h，则可以计算 6 月整体使用时长为 1.44h。同理，假设 7 月，活跃男生占比 60%，使用平均时长 1.3h；活跃女生占比 40%，使用平均时长 1.6h，则可以计算 7 月整体使用时长为 1.42h。

这样就可以非常清晰地看出，7 月比 6 月男女生的平均观看时长确实增加了，但是整体的反而降低，问题出现在活跃男女生的比例上。

所以，上述抖音案例的解释，应该是 6 月活跃人群女性占比较大，而七月男生占比较大，虽然 7 月男女生观看时长都增长了，但是由于一天 24 小时，除掉工作吃饭睡觉时间，男女生活跃时长的提升幅度并不是很大，这样就导致，虽然 7 月男女生活跃观看时长都有提升，但是整体 7 月的活跃时长低于 6 月，本质还是活跃人群结构男女比例发生变化。

所以在运营的时候，在活跃时长增长幅度有限的条件下，如果想增加整体的时长，先保证人群结构中女生占较大比例，再引导男女行增长活跃时长。