许多教育统计的初学者都表示这几个分布感到学起来非常吃力,结合最近上课的体会以及答疑的情况,觉得很有必要在这里简单地对这部分内容进行澄清和梳理,以助理解。
首先,“为什么要学习这几个分布”可能是许多人纠结的问题,明明已经在电脑中装了SPSS软件了,那么复杂而繁琐的公式不应该直接内置在软件之中就可以了吗?为什么还要花费功夫去学习它们呢?我只能说,在你对这部分内容不甚了解的情况下,你很难意识到其重要性。这些分布都各有所长,也就因为自然界和社会系统中这些分布存在的广泛性,使得教育统计领域许多习以为常的假设背后都有充分的根据,例如为什么心理能力测量数据的相关性可以选用皮尔逊(Pearson)系数、为什么样本的数量要在30个以上、为什么只有达到“显著性水平”,才能说不同的变量之间存在统计意义上的差异等……诸如这样的例子背后,都与数据的这些分布特征有关,正是由于知道如果从某个总体中抽取一定的数据作为样本,这些数据将会存在着一定的分布规律,我们才能大胆地根据样本数据对总体的情况进行大胆而有把握的判断和推理……因此,简而言之,当你能理解这些分布的时候,至少让你在根据数据结果做出推断的时候,对自己所得出的结论坚信不疑。
好了,解答完学习必要性的疑惑后,终于要进入正题了。
1.正态分布(Normal Distribution)
第一个我们要讨论的概念就是正态分布,正态分布是所有概率分布中最重要的形式,如果没有它,也就没有接下来的那几个分布。正态分布的特征表明被测事物处于稳定的状态下,测量数据的波动是由于偶然因素引起的,所以在实践中有广泛的应用。在稳定的系统环境(如自然、人类社会等),许多事物和现象都会服从正态分布,例如人的身高、体重和智商;各种商品的尺寸和质量;自然环境的温度、湿度和降雨量;考试的成绩等。正态分布的重要性还体现在用样本数据来推断总体时,当样本的数量足够大的时,可以利用样本的某些特征数据服从正态分布,进行推断,获得准确的结果。
正态分布一般记作 x~N(μ, σ^2),它的分布函数表达式为其中,π是圆周率;e是自然对数的底;x为随机变量的取值;μ为正态分布的均值(期望),σ^2是正态分布的方差。
正态分布的函数图像是一条“中间高,两端低,左右对称的曲线”(如下图所示)。
特别的,当μ=0,σ^2=1时,我们称X服从标准正态分布:X~N(0,1).
由