数据分析——工作中遇到的“辛普森悖论”

辛普森悖论指出在特定条件下,分组数据看似呈现某种趋势,但整体数据可能得出相反结论。文章通过日均浏览时长上升和AB测试案例,揭示了该悖论在数据分析中的应用,强调在得出结论前需综合考虑总体和细分数据,确保AB测试组间的流量分布均衡。
摘要由CSDN通过智能技术生成

( 一 )辛普森悖论定义

辛普森悖论 (Simpson’s Paradox) 是英国统计学家 E.H.辛普森 (E.H.Simpson) 于1951年提出的悖论,即在某个条件下的两组数据,在分别讨论时都会满足某种性质,可是一旦合并起来进行考虑,却可能导致相反的结论。

我们来看下百度百科的例子:

在这里插入图片描述
表格中可以看出,商学院和法学院的女生录取率均低于男生录取率,但是总计中女生录取率却高于男生录取率。

我们通过下面两个实例再来看下这个统计学中的陷阱。

( 二 )实例:日均浏览时长上升

问题:某APP用户日均浏览时长是否真的在增长?
现象:用户浏览时长由3.8小时上涨到4.3小时。
结论:我们的用户浏览时长变长,更“粘性”。
在这里插入图片描述

但是当我们拆开用户类型来看,在线时长并没有变化。
在这里插入图片描述

那变化的原因是什么呢?我们看一下两种用户占比趋势,发现核心用户占比较高,从而拉高了整体的人均在线时长。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值