更多内容,关注wx公众号:数据分析这件小事儿
什么时幸存者偏差?
“幸存者偏差”来源于一个二战时期的故事:
二战时期,空军是最重要的兵种之一,盟军的空军在战斗中受损严重。为了尽量减少被击落的概率,当时军方统计了所有返回的飞机的中弹情况,发现机翼部分中弹数较多,而机身和机尾部分则较少,于是就提出建议:应该加强机翼的防护,因为这是最容易被击中的位置。但来自哥伦比亚大学的统计学教授沃德持反对意见,他认为应该加强机身和机尾部分的防护。
原因很简单,很多机身、机尾中弹的飞机被击落,没有飞回来,飞回来的都是被击中但没有坠毁的飞机。就好比警方对枪击案受害者做调查,结果发现幸存者都是胳膊或大腿中弹的人,我们能说防弹应该首先保护好胳膊和大腿吗?显然不能,因为心脏和大脑中弹,生还的概率极小。
所谓幸存者偏差,又叫“幸存者谬误”,就是我们在做统计分析的时候,只关注了能获取的数据,从而得到一些以偏概全的结论,即只看到经过某种筛选之后的结果,忽略关键信息。
那么如何才能避免幸存者偏差呢?
1.首先,我们需要考虑,针对我们要研究的问题,收集到的数据是否是随机出现的,如果不是,显然通过该数据分析得到的结论是片面的或者不适用的。
2.其次,判断得到样本与未收集到的数据是否有明显的差异,即样本与剩余样本不存在显著差异。
3.最后,分析剩余样本,检验得出的结论,做到大胆假设,小心求证。