( 一 )辛普森悖论定义
辛普森悖论 (Simpson’s Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论,即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。
我们来看下百度百科的例子:
表格中可以看出,商学院和法学院的女生录取率均低于男生录取率,但是总计中女生录取率却高于男生录取率。
我们通过下面两个实例再来看下这个统计学中的陷阱。
( 二 )实例:日均浏览时长上升
问题:某APP用户日均浏览时长是否真的在增长?
现象:用户浏览时长由3.8小时上涨到4.3小时。
结论:我们的用户浏览时长变长,更“粘性”。
但是当我们拆开用户类型来看,在线时长并没有变化。
那变化的原因是什么呢?我们看一下两种用户占比趋势,发现核心用户占比较高,从而拉高了整体的人均在线时长。