数据分析中的辛普森悖论

2022.5.6 补充工作中常见的辛普森悖论案例:

1. 整体转化率差于对照组,但是拆分后发现各个渠道转化均优于对照组

2. 整体提升效果较好,拆分后发现各个渠道提升效果差于整体效果

————————————————————————————————————————

背景:最近做算法优化涉及到对某一个活动的消费指标进行拆解,做数据分析的过程中发现了一个问题,感觉这个问题可能会出现在很多场景之中,写一篇文章记录供大家参考。【出于隐私保护需要,相关指标都已经隐去,会提供必要的说明保证对图表的正常理解】

图1横轴是活动中推送的不同产品id,纵轴是每个产品id对应的转化率

图1 产品id对应的转化率

通常对于消费相关的指标,需要从各个维度进行拆解(用户,平台,渠道等),下面从用户分层维度对转化率进行拆解,看大小R的转化率,如图2所示。

图2 玩家分层后,产品id对应的转化率

为了方便分析,我们选取其中一个产品来分析(简称x),即图1和图2中红框部分对应的产品和转化率,但是图2给我们这样一个印象,就是规则组的x的转化率在各个用户分组上的表现好像和随机组没有太明显的差别,甚至直观看上去要优于随机组,这一点和图一中的数据是相悖的(因为图1产品x的整体转化率随机组明显优于规则组),原因是整体转化率会涉及到权重因子,即 Σ各个用户分组的转化率*各个用户分组占整体用户的比例 = 整体转化率 ,所以导致出现了图1和图2看似不一致的问题,下面引入权重因子,即各个用户分组占整体用户的比例之后再看看数据如何。

现在看起来数据正常了,产品x在规则组的表现是不如随机组的。

上面这个问题其实牵涉到一个有名的悖论-辛普森悖论,关于该该悖论的解释可以参考

数据分析必须警惕的坑:辛普森悖论 | 人人都是产品经理

我对这个问题的理解简单一句话来说就是未引入权重因子时可能导致一些欺骗性的现象,因此在做数据分析的时候一定要对数据做出合理的拆解(比如常用的用户,渠道,平台等维度)才能得到正确的结论。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值