正态分布也称常态分布或常态分配,是连续随机变量概率分.布的一种,是在数理统计的理论与实际应用中占有重要地位的一,种理论分布。自然界,人类社会,心理与教育中大量现象均按正·态形式分布。例如能力的高低,学生成绩的好坏,人们的社会态·度,行为表现以及身高、体重等身体状态。
正态分布是由阿伯拉罕·德莫弗尔(Abraham de Moivre)1733年发现的。其他几位学者如拉普拉斯(Marquis de Laplace)、高斯 (Carl Friedrich Gauss)对正态分布的研究也做出了贡献,故有时称正态分布为高斯分布。
一、正态分布的特征
(一)正态分布的函数(又称密度函数)为
(5—2)
式中π是圆周率3.14159...
e是自然对数的底2.71828…
x为随机变量取值一∞<x<∞
μ为理论的平均数
σ2为理论的方差
y为概率密度即正态分布上的纵坐标。
依上面的公式,当x=μ时,上式可写作
y= 当σ=1时
=0.3989 在中央点的y最高,即y的最大值为0.3989。
正态分布的图形见下图5—1。
图5-1 正态分布的图形
(二)正态分布的形式是对称的(但对称的不一定是正态分布),它的对称轴是过平均数点的垂线。正态分布中,平均数、中数、众数三者相等,此点y值最大(0.3989)。左右不同间距的y值不同,各相当间距的面积相等,y值也相等。
(三)正态分布的中央点(即平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负 1个标准差处,曲线两端向靠近基线处无限延伸,但终不能与基线相交。
(四)正态曲线下的面积为1,由于它在平均数处左右对称,故过平均数点的垂线将正态曲线下的面积划分为相等的两部分,即,各为0.50。正态曲线下各对应的横坐标(即标准差)处与平均数之间的面积可用积分公式加以计算:
(5—3)
式中σ为标准差, ,Z的大小随变量X的值而变。因正态曲线下每一横坐标所对应的面积与总面积(总面积为1)之比其值等于该部分面积值,故正态曲线下的每一面积可视为概率,即值为每一横坐标值(灭加减一定标准差)的随机变量出现的概率。
(五)正态分布是一族分布。它随随机变量的平均数,标准差的大小与单位不同而有不同的分布形态。如果平均数相同,标准差不同,这时标准差大的正态分布曲线形式低阔,如果标准差小,则正态曲线的形式高狭。
但所有的正态分布都可通过 (或 )容易地转换成标准正态分布。根据Z分数的性质(见第三章)亩知,标准正态分布的μ=0,σ2 =1。标准正态分布通常写作N(0,1)正态分布。从正态分布的密度函数可知,正态分布的两个重要的参:数是平均数和标准差。而标准正态分布这两个参数分别为0与1。
标准正态分布的密度函数可写作:
由此其密度函数及面积(或概率)的计算可大大简化。目前各种统计书后面都列有标准正态分布的统计表,它可应用于一切正态分布形式、使用简便,已不再需要每次去进行繁复的计算了。
(六)正态分布中各种差异量数的值皆有固定比率,这由于正态分布是对称的分布。
(七)在正态分布曲线下,标准差与概率(面积)有一定的数量关系。如:
正负一个标准差之间,包含总面积的68.26%;正负1.96个标准差之间,包含总面积的95%;正负2.58个标准差之间,包含总面积的99%。
知道了随机变量服从正态分布,就可比车贝雪夫定理(随机变量落在平均值附近的概率与标准差有一定的数量关系:概率至少=1- 1/h2 n>1为标准差的个数)提供更强有力的概率结论。
图5-3(1) 正态曲线下标准差与概率有一定的比率关系
二、次数分布是否正态的检验方法
在心理与教育的实际测量和实验中所获得的基本随机变量。有些具有正态分布的形式,有些则不具备,其中常见到一种正偏态分布,这种分布的右侧部分偏长左侧偏短,还有一种负偏态分布是左侧偏长而右侧偏短。(见图5—3(2))
有时为了统计分析的需要,常要分析次数分布是否为正态分布。对分布曲线是否为正态分布的拟合检验方法是χ2检验(见本书第十章第三节),除此之外,还有一些简单的方法,帮助分析。这些方法有累加次数曲线法,偏态峰态量数的描述方法。
(一)皮尔逊偏态量数法
皮尔逊发现在偏态分布中平均数距中数较近而离众数较远。在正偏态中M>Md>M0,在负偏态中M<Md<M0,而在正态分布中三者合于一点。根据平均数与众数或中数的距离,提出一个偏态量数公式,用以描述分布形态;
SK = (M-M0) / S (5—4)
或
SK = 3 (M-Md) / S (5—5)
式中S为标准差,SK为偏态量数,当SK=0时,分布对称,当SK为正数时,分布属正偏态,当SK为负数时,分布属负偏态。
图5-3(2)
(二)峰度、偏度检验法
这种方法是根据分析分布的峰度系数与偏度系数,确定分布形态。一般情况下,需要观测数据的数目要足够大,应用这种方法才有意义。
偏度系数
(5—6)
当g1=0时分布是对称的,当gl>0分布为正偏态,当gl<0时,分布呈负偏态。当观测数据数目N>200时,这个偏态系数的·统计量gl才较可靠。
峰度系数
(5—7)
当g2=0时,正态分布的峰度,g2<0时,分布的峰度比正态分布的峰度低阔,g2>0时,表明分布的峰度比正态分布的峰度高狭。当N>1000时,计算出的g2统计量才较可靠。
三、正态分布理论在测验上的应用
对于被评量如属于正态分布的研究资料,欲将其更好地数量化,得到较为符合实际的数量化结果时,常用到以下一些方法。
(一)化等级评定为测量数据
(二)确定测验题目的难易度
(三)在能力分组或等级评定时确定人致。
(四)T分数或测验分数的正态化