关于样本偏差-CSDN博客

本文链接：https://blog.csdn.net/julyclj55555/article/details/111599918

看两个案例;

X大学设立了一个著名的音乐剧项目。该项目只为一小批具有非凡音乐潜质的高中毕业生提供奖学金。简老师是这个项目的负责人，她有一些朋友是当地高中的戏剧课老师。一天下午，她去斯普林菲尔高中考察一个学生的情况，这个孩子是由其戏剧课老师强力推荐的，据说是一个十分优秀的年轻女演员。简老师观看了一出由罗杰斯与汉默斯坦创作的音乐剧的彩排，那个女孩子在剧中担任主角。结果，她说错了好几句台词，看上去她对角色的把握也不好，表现得像是几乎没什么舞台表演经验。简老师告诉她的同事，她现在十分怀疑她的朋友的判断。这是一个明智的结论吗？

乔是Y大学橄榄球队的球探，他去美国各地的中学练习赛上观看了比赛，考察那些由教练推荐给他的有潜质的年轻人。一天下午，他也来到了斯普林菲尔高中考察一个有着出色得分记录的四分卫。这个孩子有着出众的技术统计记录，并且得到了教练的高度评价。在练习中，这个四分卫传错了几次球，还投丢了几回，总共也没得到多少分。这位球探表示这个四分卫被高估了，并且建议Y大学不再考虑将他吸纳进来。这是一个明智的建议吗？

根据一个人一次的表现就推断出这个人的整体情况，这是一种非常轻率的判断，因为这就是犯了样本偏差的统计学错误。

在一般的统计或计量经济学研究中,用于估计所研究系统的参数的数据依赖于从总体中抽取的样本。如果所抽取的样本是随机的,即以类似“抽签”的方式获得的样本,根据这些样本数据所估计的各种参数能够准确反映总体的相关特性,理论上,就是所估计的参数是无偏的和一致的。而且随着抽取的样本越大,其对事件的总体特征分布的描述越是会准确。

但是,如果所抽取的样本不是随机的,那么无论其选择的样本容量有多大,则根据这些样本数据所估计的参数就不能准确反映所研究的总体性质的分布。但是,在不同的事件的研究中,大多数抽样都不是随机的,因为事件的总体总是会相当庞大,甚至是没有边界的。因此,多数的抽样只能是在研究者所选择的界定范围和规则内进行,这就可能出现抽样选择的偏差，或是未把相关联的变量放入抽样,或是把不相干的变量放入抽样中。

常见的样本偏差有两种，一种是所抽取的样本不是随机的，另一种是抽取的样本数量不够多。

样本偏差导致的判断失误很典型的表现就是访谈错觉。

数据分析中常见的两种偏差：选择性偏差和幸存者偏差。

选择性偏差指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差,是由于人为主观的选择而导致的数据偏差。在日常分析过程中要尽量避免这种偏差的发生，衡量有没有选择性偏差的一个很重要标准就是，被比较的两组群体之间是否具有可比性。

幸存者偏差指的是只能看到经过某种筛选而产生的结果，而没有意识到筛选的过程，因此忽略了被筛选掉的关键信息。比如经常会在脉脉、知乎这样的平台上看到，仿佛人人都是年薪百万，只有自己是个战斗力不足五的渣渣。这其实都是属于幸存者偏差，那些年薪百万的人会主动展示自己，还有一大堆不是年薪百万的都被过滤掉了。这就和我们平常工作中遇到的情况一样，你经常会遇到各种各样的吐槽，比如抱怨你产品价格太高了，你如果直接把产品价格降低了能解决问题吗？真正觉得你产品价格高的人可能压根就不会去跟你抱怨。比如买千元机的人肯定不会跑去苹果官网抱怨说，你们苹果手机太贵了。

如何避免陷入上述两种偏差呢？分析出结论来后，多问一些为什么，找到数据背后发生的原因。上面的两种偏差比较类似，但又不同，前者是因为我们人为选择研究对象不准确而导致的偏差，后者因为我们只看到了别人想要我们看到的部分而导致的偏差。两者也有共同点，就是都是因为我们没有看到数据的全貌而导致的偏差。