数据分析中的辛普森悖论

一只小鱼儿

已于 2022-05-06 19:34:16 修改

阅读量1.3k

点赞数 1

分类专栏：数据分析文章标签：数据分析数据挖掘

于 2020-10-11 22:53:10 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq632683582/article/details/109017870

版权

数据分析专栏收录该内容

3 篇文章

订阅专栏

2022.5.6 补充工作中常见的辛普森悖论案例：

1. 整体转化率差于对照组，但是拆分后发现各个渠道转化均优于对照组

2. 整体提升效果较好，拆分后发现各个渠道提升效果差于整体效果

————————————————————————————————————————

背景：最近做算法优化涉及到对某一个活动的消费指标进行拆解，做数据分析的过程中发现了一个问题，感觉这个问题可能会出现在很多场景之中，写一篇文章记录供大家参考。【出于隐私保护需要，相关指标都已经隐去，会提供必要的说明保证对图表的正常理解】

图1横轴是活动中推送的不同产品id，纵轴是每个产品id对应的转化率

图1 产品id对应的转化率

通常对于消费相关的指标，需要从各个维度进行拆解（用户，平台，渠道等），下面从用户分层维度对转化率进行拆解，看大小R的转化率，如图2所示。

图2 玩家分层后，产品id对应的转化率

为了方便分析，我们选取其中一个产品来分析（简称x），即图1和图2中红框部分对应的产品和转化率，但是图2给我们这样一个印象，就是规则组的x的转化率在各个用户分组上的表现好像和随机组没有太明显的差别，甚至直观看上去要优于随机组，这一点和图一中的数据是相悖的（因为图1产品x的整体转化率随机组明显优于规则组），原因是整体转化率会涉及到权重因子，即 Σ各个用户分组的转化率*各个用户分组占整体用户的比例 = 整体转化率，所以导致出现了图1和图2看似不一致的问题，下面引入权重因子，即各个用户分组占整体用户的比例之后再看看数据如何。

现在看起来数据正常了，产品x在规则组的表现是不如随机组的。

上面这个问题其实牵涉到一个有名的悖论-辛普森悖论，关于该该悖论的解释可以参考

数据分析必须警惕的坑：辛普森悖论 | 人人都是产品经理

我对这个问题的理解简单一句话来说就是未引入权重因子时可能导致一些欺骗性的现象，因此在做数据分析的时候一定要对数据做出合理的拆解（比如常用的用户，渠道，平台等维度）才能得到正确的结论。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。