§ 5.3 § 5.3 §5.3 统计量及其分布
5.3.1 统计量与抽样分布
样本来自总体,因此样本中含有总体各方面的信息,但这些信息较为分散,
有时显得杂乱无章.
为将这些分散在样本中的有关总体的信息集中起来以反映总体的各种特征,
需要对样本进行加工, 表和图是一类加工形式,
它使人们从中获得对总体的初步认识.
当人们需要从样本获得对总体各种参数的认识时,
更有效的加工方法是构造样本的函数,不同的样本函数反映总体的不同特征.
定义 5.3.1 设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 为取自某总体的样本,
若样本函数
T = T ( x 1 , x 2 , ⋯ , x n ) T=T\left(x_{1}, x_{2}, \cdots, x_{n}\right) T=T(x1,x2,⋯,xn)中不含有任何未知参数, 则称
T T T 为统计量. 统计量的分布称为抽样分布.
按照这一定义, 若 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 为样本, 则
∑ i = 1 n x i , ∑ i = 1 n x i 2 \sum_{i=1}^{n} x_{i}, \sum_{i=1}^{n} x_{i}^{2} ∑i=1nxi,∑i=1nxi2 以及 5.2 .1 节中的
F n ( x ) F_{n}(x) Fn(x) 都是统计量. 而当 μ , σ 2 \mu, \sigma^{2} μ,σ2 未知时,
x 1 − μ , x 1 / σ x_{1}-\mu, x_{1} / \sigma x1−μ,x1/σ 等均不是统计量. 必须指出的是:
尽管统计量不依赖于未知参数,但是它的分布是依赖于未知参数的.
下面几小节及 5.4 节我们介绍一些常见的统计量及其抽样分布.
5.3.2 样本均值及其抽样分布
定义 5.3.2 设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 为取自某总体的样本,
其算术平均值称为样本均值,一般用 x ˉ \bar{x} xˉ 表示,即
x ˉ = x 1 + x 2 + ⋯ + x n n = 1 n ∑ i = 1 n x i . \bar{x}=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}=\frac{1}{n} \sum_{i=1}^{n} x_{i} . xˉ=nx1+x2+⋯+xn=n1i=1∑nxi.
在分组样本场合, 样本均值的近似公式为
x ˉ = x 1 f 1 + x 2 f 2 + ⋯ + x k f k n ( n = ∑ i = 1 k f i ) . \bar{x}=\frac{x_{1} f_{1}+x_{2} f_{2}+\cdots+x_{k} f_{k}}{n} \quad\left(n=\sum_{i=1}^{k} f_{i}\right) . xˉ=nx1f1+x2f2+⋯+xkfk(n=i=1∑kfi).
其中 k k k 为组数, x i x_{i} xi 为第 i i i 组的组中值, f i f_{i} fi 为第 i i i 组的频数.
例 5.3.1 某单位收集到 20 名青年人某月的娱乐支出费用数据:
790 840 840 880 920 930 940 970 980 990
1000 1010 1010 1020 1020 1080 1100 1130 1180 1250
则该月这 20 名青年的平均娱乐支出为
x ˉ = 1 20 ( 790 + 840 + ⋯ + 1250 ) = 994. \bar{x}=\frac{1}{20}(790+840+\cdots+1250)=994 . xˉ=201(790+840+⋯+1250)=994.
将这 20 个数据分组可得到如下频数频率表:
表 5.3.1 例 5.3.1 的频数频率分布表
组序 分组区间 组中值 频数 频率 ( % ) (\%) (%)
1 $(770,870]$ 820 3 15
2 $(870,970]$ 920 5 25
3 $(970,1070]$ 1020 7 35
4 $(1070,1170]$ 1120 3 15
5 $(1170,1270]$ 1220 2 10
合计 20 100
对表 5.3.1 的分组样本, 使用公式(5.3.2) 进行计算可得
x ˉ = 1 20 ( 820 × 3 + 920 × 5 + ⋯ + 1220 × 2 ) = 1000. \bar{x}=\frac{1}{20}(820 \times 3+920 \times 5+\cdots+1220 \times 2)=1000 . xˉ=201(820×3+920×5+⋯+1220×2)=1000.
我们看到两种计算结果不同. 事实上, 由于(5.3.2)
式未用到真实的样本观测数据,因而给出的是近似结果.
关于样本均值, 有如下几个性质.
性质5.3.1 若把样本中的数据与样本均值之差称为偏差, 则样本所有偏差之和为 0
, 即 ∑ i = 1 n ( x i − x ˉ ) = 0 \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)=0 ∑i=1n(xi−xˉ)=0.
从均值的计算公式看, 它使用了所有的数据,
而且每一个数据在计算公式中处于平等的地位. 所有数据与样本中心 x ˉ \bar{x} xˉ
的偏差可正可负, 且被互相抵消, 从而样本的所有偏差之和必为零.
性质 5.3.2 数据观测值与样本均值的偏差平方和最小, 即在形如
∑ ( x i − c ) 2 \sum\left(x_{i}-c\right)^{2} ∑(xi−c)2 的函
数中, ∑ ( x i − x ˉ ) 2 \sum\left(x_{i}-\bar{x}\right)^{2} ∑(xi−xˉ)2 最小,其中 c c c 为任意给定常数.
证明 对任意给定的常数 c c c,
∑ ( x i − c ) 2 = ∑ ( x i − x ˉ + x ˉ − c ) 2 = ∑ ( x i − x ˉ ) 2 + n ( x ˉ − c ) 2 + 2 ∑ ( x i − x ˉ ) ( x ˉ − c ) = ∑ ( x i − x ˉ ) 2 + n ( x ˉ − c ) 2 ⩾ ∑ ( x i − x ˉ ) 2 . \begin{aligned} \sum\left(x_{i}-c\right)^{2} & =\sum\left(x_{i}-\bar{x}+\bar{x}-c\right)^{2} \\ & =\sum\left(x_{i}-\bar{x}\right)^{2}+n(\bar{x}-c)^{2}+2 \sum\left(x_{i}-\bar{x}\right)(\bar{x}-c) \\ & =\sum\left(x_{i}-\bar{x}\right)^{2}+n(\bar{x}-c)^{2} \geqslant \sum\left(x_{i}-\bar{x}\right)^{2} . \end{aligned} ∑(xi−c)2=∑(xi−xˉ+xˉ−c)2=∑(xi−xˉ)2+n(xˉ−c)2+2∑(xi−xˉ)(xˉ−c)=∑(xi−xˉ)2+n(xˉ−c)2⩾∑(xi−xˉ)2.
下面考察样本均值的分布.{width=“312px”}
图 5.3.1 4 个样本的样本均值
例 5.3 . 2 设有一个由 20 个数组成的总体, 现从该总体同时取出容量为 5
的样本.图 5.3.1 画出第一个样本的抽样过程, 左侧是该总体,
右侧是从总体中随机地抽出的样本, 记录后, 放回, 再抽第二个样本.
这里一共抽出 4 个样本, 每个样本有 5 个观测值,
我们计算了各个样本的样本均值. 由抽样的随机性,
每一个样本的样本均值都有差别.
设想类似抽取样本 5 、样本 6 ⋯ ⋯ 6 \cdots \cdots 6⋯⋯ 每次都计算样本均值
x ˉ \bar{x} xˉ, 它们之间的差异是由于抽样的随机性引起的.假如无限制地抽下去,
这样我们可以得到大量的 x ˉ \bar{x} xˉ 的值, 图 5.3.2 就是用这样得到的 500 个
x ˉ \bar{x} xˉ 的值所形成的直方图, 它反映了 x ˉ \bar{x} xˉ 的抽样分布.
它的外形很像正态分布, 这不是偶然的, 有下面定理保证.
定理 5.3.1 设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn
是来自某个总{width=“228px”}
图 5.3.2500 个样本均值形成的直方图体的样本, x ˉ \bar{x} xˉ 为样本均值.
(1)若总体分布为 N ( μ , σ 2 ) N\left(\mu, \sigma^{2}\right) N(μ,σ2), 则 x ˉ \bar{x} xˉ
的精确分布为 N ( μ , σ 2 / n ) N\left(\mu, \sigma^{2} / n\right) N(μ,σ2/n);
(2) 若总体分布未知或不是正态分布,
E ( x ) = μ , Var ( x ) = σ 2 E(x)=\mu, \operatorname{Var}(x)=\sigma^{2} E(x)=μ,Var(x)=σ2 存在, 则 n n n 较大时
x ˉ \bar{x} xˉ的渐近分布为 N ( μ , σ 2 / n ) N\left(\mu, \sigma^{2} / n\right) N(μ,σ2/n), 常记为
x ˉ ∼ N ( μ , σ 2 / n ) \bar{x} \sim N\left(\mu, \sigma^{2} / n\right) xˉ∼N(μ,σ2/n). 这里渐近分布是指 n n n
较大时的近似分布.
证明 (1)利用卷积公式, 可得知
∑ i = 1 n x i ∼ N ( n μ , n σ 2 ) \sum_{i=1}^{n} x_{i} \sim N\left(n \mu, n \sigma^{2}\right) ∑i=1nxi∼N(nμ,nσ2), 由此可知
x ˉ ∼ N ( μ , σ 2 / n ) \bar{x} \sim N\left(\mu, \sigma^{2} / n\right) xˉ∼N(μ,σ2/n).
(2) 由中心极限定理,
n ( x ˉ − μ ) / σ → L N ( 0 , 1 ) \sqrt{n}(\bar{x}-\mu) / \sigma \xrightarrow{L} N(0,1) n(xˉ−μ)/σLN(0,1), 这表明 n n n
较大时 x ˉ \bar{x} xˉ 的渐近分布为 N ( μ , σ 2 / n ) N\left(\mu, \sigma^{2} / n\right) N(μ,σ2/n),
证明完成.
例 5.3 . 3 图 5.3.3 给出三个不同总体样本均值的分布密度函数.
三个总体分别是:
(1) 均匀分布(2) 倒三角分布(3) 指数分布, 随着样本量的增加, 样本均值
x ˉ \bar{x} xˉ 的抽样分布逐渐向正态分布逼近, 它们的均值保持不变,
而方差则缩小为原来的 1 / n 1 / n 1/n. 当样本量为 30
时,我们看到三个抽样分布都近似于正态分布.下面对之进行具体说明.{width=“300px”}
图 5.3.3 不同总体样本均值的分布
(1) 的总体分布为均匀分布 U ( 1 , 5 ) U(1,5) U(1,5), 该总体的均值和方差分别为 3 和
4 / 3 4 / 3 4/3, 若从该总体抽取样本容量为 30 的样本, 则其样本均值的渐近分布为
x ˉ 1 ∼ N ( 3 , 4 3 × 30 ) = N ( 3 , 0.2 1 2 ) . \bar{x}_{1} \sim N\left(3, \frac{4}{3 \times 30}\right)=N\left(3,0.21^{2}\right) . xˉ1∼N(3,3×304)=N(3,0.212).
(2) 的总体分布的概率密度函数为
p ( x ) = { ( 3 − x ) / 4 , 1 ⩽ x < 3 , ( x − 3 ) / 4 , 3 ⩽ x ⩽ 5 , 0 , 其他. p(x)=\left\{\begin{array}{ll} (3-x) / 4, & 1 \leqslant x<3, \\ (x-3) / 4, & 3 \leqslant x \leqslant 5, \\ 0, & \text { 其他. } \end{array}\right. p(x)=⎩
⎨
⎧(3−x)/4,(x−3)/4,0,1⩽x<3,3⩽x⩽5, 其他.
这是一个倒三角分布, 可以算得其均值与方差分别为 3 和 2 ,
若从该总体抽取样本容量为 30 的样本, 则其样本均值的渐近分布为
x ˉ 2 ∼ N ( 3 , 2 30 ) = N ( 3 , 0.2 6 2 ) . \bar{x}_{2} \sim N\left(3, \frac{2}{30}\right)=N\left(3,0.26^{2}\right) . xˉ2∼N(3,302)=N(3,0.262).
(3) 的总体分布为指数分布 Exp ( 1 ) \operatorname{Exp}(1) Exp(1), 其均值与方差都等于
1, 若从该总体抽取样本容量为 30 的样本, 则其样本均值 x ˉ 3 \bar{x}_{3} xˉ3
的分布近似为
x ˉ 3 ∼ ˙ N ( 1 , 1 30 ) = N ( 1 , 0.1 8 2 ) . \bar{x}_{3} \dot{\sim} N\left(1, \frac{1}{30}\right)=N\left(1,0.18^{2}\right) . xˉ3∼˙N(1,301)=N(1,0.182).
这三个总体都不是正态分布, 但其样本均值的分布都近似于正态分布, 差别表现
在均值与标准差上. 图 5.3.3 所示曲线既展示它们的共同之处,
又显示它们之间的差别.
5.3.3 样本方差与样本标准差
定义 5.3.3 设 x 1 , x 2 , ⋯ , x n x_{1}, x_{2}, \cdots, x_{n} x1,x2,⋯,xn 为取自某总体的样本,
则它关于样本均值 x ˉ \bar{x} xˉ 的平均偏差平方和
s n 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} sn2=n1i=1∑n(xi−xˉ)2
称为样本方差. 其算术根 s n = s n 2 s_{n}=\sqrt{s_{n}^{2}} sn=sn2 称为样本标准差.
相对样本方差而言, 样本标准差通常更有实际意义,
因为它与样本均值具有相同的度量单位. 在 n n n 不大时, 常用
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^{2}=\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2} s2=n−11i=1∑n(xi−xˉ)2
作为样本方差 (也称无偏方差, 其含义在第六章讲述), 其算术根
s = s 2 s=\sqrt{s^{2}} s=s2 也称为样本标准差.在实际中, s 2 s^{2} s2 比 s n 2 s_{n}^{2} s