辛普森悖论

一、简述

在某个条件下的两组数据,分别讨论时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。

当人们尝试探究两种变量是否具有相关性的时候,比如新生录取率与性别,报酬与性别等,会分别对之进行分组研究。辛普森悖论是在这种研究中,在某些前提下有时会产生的一种现象。即在分组比较中都占优势的一方,会在总评中反而是失势的一方。

 

二、经典案例

一所美国高校的两个学院,分别是:法学院和商学院,新学期招生数据如下:

 全校男生全校女生
录取209143
未录取95110
录取率68.8%56.5

 

 

 

 

 

 

人们怀疑这两个学院有性别歧视。

现作如下统计:

 法学院男生法学院女生商学院男生商学院女生
录取85120192
未录取45101509
录取率15.1%33.6%80.1%91.1%

 

 

 

 

 

 

我们可以看到,法学院男生的录取比例为8/53=15.1%,女生录取的比例为51/152=33.6%。同理,商学院男生的录取比例为80.1%,女生的录取比例为91.1%

无论在法学院还是在商学院,女生的录取比例都高于男生。

 

我们再来看一个实际工作中会遇到的案例:

某产品的用户中有10000人使用Android设备、5000人使用IOS设备,整体的付费转化率应该是5%。细分发现其中IOS设备的转化率仅为4%,而Android设备则是5.5%。

假设相同的货币化(也就是Android用户和iOS用户在游戏中花的钱一样多),资源有限的情况下可能根据这些数据会做出一些极端的决定,也许会优先考虑安卓功能的开发,甚至干脆取消iOS项目。

  安卓手机 IOS手机安卓平板  IOS平板
 转化 50 100500  100
 未转化1950  3400 7500 1400
转化率2.50%2.86%6.25%6.67%

 

 

 

 

 

 

然而当数据按照设备再次细分,用户群的不同的情况如下:

现在发现iOS平板的转换率比Android平板高一点,iOS手机的转换率同样比Android手机高。如果看到了这一点,可能会对未来的产品做一系列不同的决策。

iOS能在设备转化方面打败Android,但是在整体水平上却输给Android的原因是,每个平台的设备类型不同:平板的转化率比手机的转化率高,在这个用户群中,iOS平板占iOS设备的比例(30%)低于Android平板所占的比例(80%),尽管Android平板上的转化率比IOS低。 把数据混合到一起就变成一个很大的问题,去比较两组与完全不同的属性的东西 

 

三、原因与应对策略

 误区产生的原因说起来也很简单,就在于将“值与量”两个维度的数据,归纳成了“值”一个维度的数据,并进行了合并。

辛普森悖论的数学内核:

当然把c=a,e=g(更为特殊的情况),上述关系依然适用。

 

如果要避免“辛普森悖论”给我们带来的误区,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响。

为了避免这种情况,用于优先功能开发的基本维度(“过滤器”,或用户特性),应该在用户分类方面建立粗糙集。对于移动产品,最基础的设置一般包括:

  • 位置(国家)
  • 设备(平台、外形,设备型号)
  • 采集源;
  • 早期行为线索( 如盈利/ 参与里程碑);
  • 加入日期(用于控制季节性)
  • 对于一些收购渠道(如Facebook),其他人口统计数据点,如年龄,性别等可能也是重点。

用这些维度进行分析比先前引用的:粗暴的对比IOS和Android总体情况的例子提供了更为可靠的见解。最终分析的目标是为真正使用它的人改善产品。如果这个分析在一个错误的前提下进行,那么用户的真正问题并不会得到解决。

转载于:https://www.cnblogs.com/zcjcsl/p/9445402.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值