这一篇文章将讲正态分布及由正态分布推导出来的其他相关分布。
- 正态分布
正态分布在生活中无处不在,人们的身高体重,智力水平都服从或者说近似服从正太分布。其概率密度函数为:
正态分布的神奇之处在于,所有分布在一定情况下都收敛于正态分布。也就是我们说的中心极限定理:假设
比如我用R模拟产生了10000个0到1之间的随机数,然后每10个求和,最后得到1000个数。下图是这1000个数的柱状分布图,可以看出基本上符合正态分布的形状。
如果我们把随机数换成比如泊松分布,结果也是一样的,可以自行用软件尝试。中心极限定理也可以用公式来表示,
其中,μ表示原分布的均值,n表示相加的样本个数,
正态分布在统计假设检验中有着不可替代的第位,这里不赘述。
- 卡方分布(
)
卡方分布的概率密度函数为如下所示,
这里有两种对于卡方分布定义:
- 卡方分布为伽马分布的一种特殊形式,我们将伽马分布中的k取n/2, θ取2,就可以得到卡方分布的概率密度函数。
- 假设
为独立同分布,并且他们都服从标准正态分布,那么服从卡方分布分布。
其中n代表自由度,直观理解,第二种解释更能够表达自由度的来源,也就是n个独立标准正态分布平方和。
- 学生t分布
学生t分布的概率密度函数如下所示,
假设Z服从标准正态分布 (N(0,1) ),X服从自由度为n的卡方分布(
t分布是一种采样分布,用来描述小样本下的的统计量。通常来讲,假设
接下来我们来看看这个新的统计量t是怎么和前面的定义(正态分布和卡方分布)联系起来的。假设
我们知道:
-
和是独立的随机变量。
-
同样满足均值和方差为和的正态分布。
-
服从自由度为n-1的卡方分布(如前一节所讲,卡方分布为正态独立变量的平方和)。
那么回到统计量t的定义式,我们可以改写为如下,
于是,分子部分为标准正太分布,分母部分为(n-1)分之卡方分布的平方根,就得到了本小节最开始对t分布的表示方法。
t分布的强大之处在于做统计检验的时候并不需要事先知道方差(上述计算的过程也可以看出通过构造正态分布和卡方分布来将分子分母的σ消掉),只取决于样本的大小,于是在小样本估计(均值)的时候,会(比正态分布)更加准确。当然,n越大,t分布就越来越接近于标准正态分布。
- F分布
F分布的定义是,如果
F分布也属于采样分布,我们在上面的例子知道了,样本方差经过变形后服从卡方分布,那么不难知道,根据上述F分布的定义(分母和分子都包含独立的卡方分布数据),两组(正态)数据方差的比例满足F分布。
假设有两组独立正态分布的数据
如果我们有原假设
F分布经常用于方差分析(ANOVA)中,用于检验组间方差和组内方差是否相同,从而判断两组数据的均值是否相等。(详情搜索ANOVA)