01 幸存者偏差概念的本质是什么?
-
用统计学的专业术语来解释是——“选择偏倚”,即我们在进行统计的时候忽略了样本的随机性和全面性,用局部样本代替了总体随机样本,从而对总体的描述出现偏倚。
-
幸存者偏差(Survivorship Bias) 指的是人往往会注意到某种经过筛选之后所产生的结果,同时忽略了这个筛选的过程,而被忽略的过程往往包含着关键性的信息。
-
统计学的简单描述是这样的:统计全集为A,观察到A的子集A1有特征X,A1为幸存者,而A另外的子集A2并没有观察到或者被人为忽略,于是判断全集A都有特征X,事实上A2的特征为Y。
02 它容易在哪些情况下发生?它的作用机制是怎样的?
- 从统计学的角度我们来看我们是如何滥用幸存者偏差的——我们观察到了A1有特征X,同时我们意识到可能存在幸存者偏差,我们预先把A1定义为幸存者,于是直接判断非幸存者A2一定不会有特征X,而真相是:A2是否有特征X这个信息我们并不知道,可能有,也可能没有。
03 我们如何避免它?
“幸存者偏差” 是数据分析的常见逻辑错误,而数据又是驱动互联网的动力之一,那么互联网人应该在分析数据、决策判断时如何避免“幸存者偏差”的存在呢?
避免的方法:
- 判断样本的随机性,即必须知道样本是否是随机的。
- 判断样本和剩余样本中会不会存在显著差异。
- 分析剩余样本数据,验证结论。
04 案例
- 最初它来源于战争。 人们发现飞回来的飞机损伤最严重的地方在于机翼,有的几乎被打成筛子,而发动机和驾驶舱几乎没有损伤。就在所有人都认为应该给机翼加固装甲时,一个统计学家却认为,应该加固发动机和驾驶舱,因为机翼被打成筛子都可以安全返回,说明它并不脆弱,而驾驶舱和发动机中弹后,飞机都没有飞回来。死人不会说话。 飞回来的飞机,都是驾驶舱和发动机完好,死去的战士自然不会告诉他们发动机和驾驶舱才是最重要的,所以人们会自然而然的认为这些地方不重要。
- 妈妈为什么不挑食?因为她买菜的时候已经挑过了!