本文介绍关于总体、样本、样本抽样分布的理解,及2个重要的统计学原理:中心极限定理和大数定理。
总体:就是一个概率分布。
样本:从总体中随机抽取的一个子集。其中,样本具有和总体相同的分布,样本之间两两独立。
抽样分布:对原来的分布总体,以一定样本容量抽取样本值,多次抽取后,样本的统计量(比如均值或方差)形成的分布。
其中,
样本容量(大小)/样本量:每个样本里有多少个数据,每一次试验的样本值个数,通常说n个( x 1 , x 2 , . . . , x n ) x_1,x_2,...,x_n) x1,x2,...,xn)。
样本数量(空间):抽样的时候,包含多少个样本,或者说抽多少次。
抽样分布可以分为两类:
一类:关于均值的分布:正态分布和t-分布;
一类:关于方差的分布:卡方分布和F-分布。
今天先说样本均值的抽样分布,此处涉及中心极限定理:
通俗的说,给定一个任意分布的总体,每次从这些总体中随机抽取 n 个样本值(样本容量),一共抽 m 次(样本数量),然后把这 m 组样本分别求出平均值, 这些平均值(样本均值)的分布接近正态分布。
其中,
1、总体本身的分布不要求正态分布;
2、样本容量n越大,样本均值的分布约趋近于正态分布,标准差越小,即分布越集中。
所以,样本均值的抽样分布是服从正态分布,即 x ‾ \overline{x} x~N( μ , σ 2 / n \mu,σ^2/n μ,σ2/n)
(参考:网易公开课-可汗学院-统计学
网站:http://onlinestatbook.com/stat_sim/sampling_dist/index.html)
通过模拟试验,可以看到有关于样本均值抽样分布的图形化过程,当n取不同值时,抽样分布的形状。
下图是从视频中截取的示例图,最上面深灰色的是总体分布,中间的是n=5的样本均值抽样分布,最下面是n=25的样本均值抽样分布。
可以发现抽样发生10000次时,不同样本容量的均值相差不大分别为14.48和14.44,和总体均值近似。但是标准差相差较多,n=5时,sd=4.34;n=25时,st=1.91,即样本容量更大时,分布更集中了。另外n=25时的偏度和峰度都比n=5时更小。
接下来,再看看上述3类分布的均值、方差、标准差常用的基本符号和计算:
(p.s.第一次编辑数学公式,方法参考:https://www.zybuluo.com/codeep/note/163962)
均值 | 方差 | 标准差 | |
---|---|---|---|
总体(容量N) | μ \mu μ | σ 2 σ^2 σ2 | σ \sigma σ |
样本(容量n) | x ‾ \overline{x} x | S 2 S^2 S2 | S S S |
样本均值的抽样分布(容量n) | μ x ‾ \mu_{\overline{x}} μx | σ x ‾ 2 \sigma_{\overline{x}}^{2} σx2 |