如果有人问起什么分布是统计学中最重要的分布,那一定是正态分布,没有之一。现如今,只要稍有统计学知识的人都晓得这个名字,学得稍好的人就知道做t检验要两组符合正态分布。
然而,正态分布并不是与生俱来的,它源于一个更古老的分布——二项分布。那是在18世纪上半叶,人们刚刚导出了大数定律,并且知道,对于一个真实存在的总体率p,可以使用样本频率f=X/N来推定,特别的,当N趋于无穷大的时候,这个f就会等于p。但是这个N到底到多大的时候就会是f变得稳定呢?当时的数学(统计学)家们根据自己的方法给出了答案。
l 按契比谢夫不等式:至少600600;
l 按贝努利大数定律:至少25550;
l 按尼古拉斯.贝努利改进公式:至少17350;
l 按狄莫弗正态分布逼近二项分布的方法:至少要6600.
到了6600这个级别上,人们已经无法做得更好了,而这项研究的一个结果就是狄莫弗(De Moivre Abraham,1667—1754)在1733年导出了正态分布的函数形式,而且进一步的,他发现了中心极限定理(这和前述的大数定律一起成为统计学最重要的两个定理):当N足够大,二项分布将逼近正态分布。