这篇文章从数据分析的几个阶段,总结了14个我们可能会犯的一些错误,以及如何避免。
数据获取阶段
在数据采集/获取阶段,容易犯的错误:
NO.1 采样偏差
在数据采集的时候,如果不能获取到总体的数据,那就要采集到可以代表总体的样本,抽样就显得尤其重要,如果样本不具有代表性,那么得出的结论一定是有失偏颇的。
举个例子 ->
小红书的用户群体是年轻的女性用户为主,如果用这份数据去预测一部受众是青少年的电影票房,结果可能就不合理了。
避免的方法 ->
使样本能够充分代表总体。
NO.2 幸存者偏差
指的是只能看到经过某种筛选而产生的结果,忽略了被筛选掉的关键信息。
在二战期间,人们发现幸存的轰炸机中,机翼中弹的数量很多,而机身中弹的却很少。因此人们认为我们应该加固飞机的机翼,其实不然,就是因为机翼中弹多还能飞回来,所以机翼中弹并没有影响飞机返航;而机身中弹的少则说明了子弹打中机身对飞机的影响更大,导致飞机不能返航,在这个飞机问题中,只统计到了幸存下来的飞机,以此下结论,是不正确的。