三、抽样分布与假设检验
引言
其实我们共有三种不同性质的分布:
- 总体分布
- 样本分布
- 抽样分布
总体分布(population distribution):总体中各元素的观察值所形成的分布。分布通常是未知的,可以假定它服从某种分布。
样本分布(sample distribution):一个样本中各观察值的分布,也称经验分布,当样本的容量逐渐增大,样本分布逐渐接近总体分布。
抽样分布(sampling distribution):样本统计量的概率分布,是一种理论概率分布。随机变量是样本统计量。
这里提到的统计量(Summary statistics)的概念,可以分成两类:
- 描述样本集中位置的统计量
- 描述样本分散程度的统计量
描述样本集中位置的统计量包括:样本均值Mean、中位数Median、众数Mode;描述样本分散程度的统计量包括:四分位距(Inter-quartile range)、极差、方差与标准差、变异系数。
3.1 抽样分布
某个样本统计量的抽样分布,从理论上来说就是在抽取容量为n的样本时,由每个样本算出的该统计量数值的频数分布或者概率分布。
首先要明确的是,所有分布的前提是所收集的样本要服从正态分布,这需要首先进行正态分布的拟合检验,即使是大样本的情况下,样本正态的情况下分析结论也要更准确一些。
这里要先讲中心极限定理。
中心极限定理(Central limit theorem)
如果样本量足够大,则变量均值的采样分布将近似于正态分布,而与该变量在总体中的分布无关。
在分析领域,我们每天都会遇到各种各样的数据,而源数据的分布并不总是被我们所知道的,但是,因为我们了解中心极限定理,所以我们甚至不需要关心源数据的分布,因为我们总是可以得到正态分布。
由正态分布导出的几个重要抽样分布: