文章目录
本文主要围绕以下问题展开相应的数据研发相关知识的梳理与总结:
在统计学上有哪些谬论?为什么会有这些谬论?如何避免在数据分析过程中陷入这样的谬论。举例说明。
1 辛普森悖论 Simpson’s Pradox
辛普森悖论指的是,数据集分组呈现的趋势与数据集聚合呈现的趋势相反的现象。
先看一个例子——Sophia和Carlo两家餐厅推荐指数,可以通过看男性和女性各组的评分,也可以看整体的评分。如下图所示:
Carlo’s 在男性和女性推荐率上都赢了,但却输在了总体推荐率上!!!
这里的问题在于,只查看单独各组数据的百分比会忽略掉样本的大小,也就是评论者的人数。每个百分比都由推荐用户数与相对应的评论人数计算得到。Carlo’s 有更多的男性评论者,而Sophia’s 有更多的女性评论者,因此导致了矛盾的结果。
辛普森悖论的另一个有趣的现象表现在,分层组数据表现的相关性方向与整体数据表现的相关性方向截然相反。我们来看一个简化后的例子。假设我们有每周运动小时数与两组患者(分别为50岁以下和50岁以上的患者)患病风险的对比数据。以下是各组运动数据与患病可能性的散点图(左侧:小于50岁,右侧:大于50岁)。
从图中我们可以清楚地看到数据负相关,表明增加每周运动量与两组患者患病率的风险降低相关。下面让我们将数据合并在一起再来看看他们的关系:
相关性完全逆转了!如果只给出这张图结果,我们会得到这样的结论:运动增加了患病风险,这与我们从分层数据散点图中得到的结论完全相反。
运动如何既减少又增加疾病风险呢?其实并不然,要想弄清如何解决这个悖论,我们需要从数据的生成过程来考虑展示的数据和原因——是什么产生了这些结果。
如何避免
辛普森悖论告诉我们在分析数据时,不能简单的将分组数据汇总相加,而要仔细观察分组数据的特征。为避免辛普森悖论出现,就需要斟酌个别分组的权重,以一定的系数去消除以分组资料基数差异所造成的影响,同时必须了解该情境是否存在其他潜在因素而综合考虑。
辛普森悖论的重要性在于它揭示了我们看到的数据并非全貌。我们不能满足于展示的数字或图表,我们需要考虑整个数据生成过程,考虑因果模型。一旦我们理解了数据产生的机制,我们就能从图表之外的角度来考虑问题,找到其它影响因素。
除了使用数据,我们需要运用经验和业务知识,或者向专家学习,来更好地进行决策。
2 基本比率谬误 Base Rate Fallacy
基本比率谬误(base rate fallacy),是指对统计学上的忽略基本比率而导致的推论谬误。
基本比率对概率有重要影响。这很好理解:买矿泉水的人多呢,还是买香奈儿香水的人多?人群和需求概率明摆着,简直不是问题。但是人们往往会通过代表性来评估概率,忽视基本比率。代表性的意思是,通过比较 B 与 A 的相似程度来评估概率。例如,如果 A 能高度代表 B,人们就会认为 A 源自 B 的概率高。但如果 A 与 B 并不相似,人们就会认为 A 源自 B 的概率低。
经典问题:Jack 已经退休。那么他是图书馆员还是推销员?
需要考虑实际中推销员的比例远远大于图书馆员,而不能简单凭“退休”二字推测大概率为图书馆员。