我经常会被问到这么一个问题:样本量多大就不用进行正态性检验了。殊不知,这问题的本身就是错误的,并不是样本大,就一定要服从正态分布。我们可以轻易举出一个反例来说明这个问题。比方说就用1-1000这一千个(甚至更多)自然数,组成一个样本,那么这个样本的分布就不是正态分布,因为1-1000服从的是均匀分布。另外,数据的分布基于形成的机理,有的分布天生就非正态(如寿命数据)。
但有些朋友,并不觉得这是一个错误的问题,甚至在他们的学习中还流传着这么一个说法:样本量大于30就可以认为是服从正态分布。当你向他问为什么的时候,会得到一个专业的解释——中心极限定理。
中心极限定理
中心极限定理(Central Limit Theorem)是统计学中最重要的结论之一。在这里,我并不想给出中心极限定理专业的定义