本博文源于《商务统计》,旨在理解大样本必服从正态分布。总所周知:样本与总体是两个概念,我们总希望在较大的总体中抽取部分样本,然后调查样本的一些属性去推测总体的取值。前人在这方面最著名的就是投硬币实验。投硬币投1次我们知道50%的概率正面,我们也在数学书中学到只要不断加大抛硬币的次数,一定能逼近50%。这就是传说中大数定律。大数定律首先由伯努利产生,后人不断开拓就产生了切比雪夫大数定律和辛钦大数定律。
而中心极限定理就是阐述样本足够大,样本就一定服从正态分布。
例子:某大学有2w名大学生,抽取200名调查月平均生活费
第一次抽取200名:1820元
第二次抽取200名:1830元
第三次抽取200名:1825元
第四次抽取200名:1835元
第五次抽取200名:1826元
第六次抽取200名:1824元
学过概率论的都知道,只要不断抽取,样本的平均值一定能等于总体的平均值,因此这些样本平均值在总体范围中,就是总体平均值周围不断摆动,样本越多,范围摆动越频繁,可以参考这张图
第一行是总体的分布,我们加大n样本大小的取值,随着不断取就会发现样本取值服从切比雪夫大数定律慢慢地靠近总体的取值,然后就会形成正态分布的图像了。
总结
样本大,服从正态分布起源于中心极限定律,中心极限定律的发现是根据一代人一代人的实验与理论证明,从中看出数据服从正态分布是一个多么好的性质!