第七章 参数估计
7.1 参数估计的基本原理
参数估计:用样本统计量去去估计总体的参数
7.1.1 估计量与估计值
- 估计量( θ ^ {\hat \theta} θ^):用于估计总体参数的随机变量
- 估计值:估计参数时计算出来的统计量的具体值
样本统计量(估计量) \\ θ ^ {\hat \theta} θ^ | 总体参数 (被估计的参数) \\ θ \theta θ |
---|---|
样 本 均 值 x ˉ 样本均值\bar x 样本均值xˉ | 总 体 均 值 μ 总体均值\mu 总体均值μ |
样 本 比 例 p 样本比例p 样本比例p | 总 体 比 例 π 总体比例\pi 总体比例π |
样 本 方 差 s 2 样本方差s^2 样本方差s2 | 总 体 方 差 σ 2 总体方差\sigma^2 总体方差σ2 |
7.1.2 点估计和区间估计
-
点估计:用样本的估计量 θ ^ {\hat \theta} θ^的某个取值直接作为总体参数 θ \theta θ的估计值
- 一个具体的点估计值无法给出估计的可靠性的度量
- 由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值
-
区间估计:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减估计误差而得到
-
置信区间:由样本统计量所构造的总体参数的估计区间
- 统计学家在某种程度上确信这个区间会包含真正的总体参数,所以取名为置信区间
- 置信上限:置信区间的最小值
- 置信下限:置信区间的最大值
-
置信水平( 1 − α 1-\alpha 1−α):置信区间中包含总体参数真值的次数,又称置信度或置信系数( α \alpha α为是总体参数未在区间内的比例)
-
常用置信水平的 z 2 / α z_{2/\alpha} z2/α值:
置信水平 | α \alpha α | α / 2 \alpha/2 α/2 | z α / 2 z_{\alpha/2} zα/2 |
---|---|---|---|
90% | 0.10 | 0.05 | 1.645( z 0.05 = z_{0.05} = z0.05= 1.645 ) |
95% | 0.05 | 0.025 | 1.96( z 0.025 = z_{0.025} = z0.025= 1.96) |
99% | 0.01 | 0.005 | 2.58( z 0.005 = z_{0.005} = z0.005= 2.58) |
7.1.3 评价估计量的标准
- 无偏性:估计量抽样分布的数学期望等于被估计的总体参数,即 E ( θ ^ ) = θ E(\hat \theta) = \theta E(θ^)=θ,称 θ ^ 为 θ \hat \theta 为 \theta θ^为θ的无偏估计量。
- 有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效,即 D ( θ ^ ) D(\hat \theta) D(θ^)越小,估计越有效。
- 一致性:随着样本量的增大,估计量的值越来越接近被估计的总体参数
7.2 一个总体参数的区间估计
7.2.1 总体均值的区间估计
- 大样本
- 不论总体是不是正态分布,只要是大样本就有样本均值的标准化变量:
z = x ˉ − μ σ / n ∼ N ( 0 , 1 ) z = \frac{\bar x - \mu}{\sigma / \sqrt{n}} \sim N(0,1) z=σ/nxˉ−μ∼N(0,1)
总体均值 μ \mu μ在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
x ˉ ± z α / 2 σ n \bar x \pm z_{\alpha/2} \frac{\sigma}{\sqrt{n}} xˉ±zα/2nσ
或
x ˉ ± z α / 2 s n ( σ 未 知 ) \bar x \pm z_{\alpha/2} \frac{s}{\sqrt{n}}(\sigma 未知) xˉ±zα/2ns(σ未知)
- 不论总体是不是正态分布,只要是大样本就有样本均值的标准化变量:
- 小样本
- 正态总体且总体方差 σ 2 \sigma^2 σ2已知:可使用大样本中的 z z z分布来计算
- 正态总体且总体方差
σ
2
\sigma^2
σ2未知,样本均值的标准化变量为:
t = x ˉ − μ s / n ∼ t ( n − 1 ) t = \frac{\bar x - \mu}{s / \sqrt{n}} \sim t(n-1) t=s/nxˉ−μ∼t(n−1)
总体均值 μ \mu μ在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
x ˉ ± t α / 2 s n \bar x \pm t_{\alpha/2} \frac{s}{\sqrt{n}} xˉ±tα/2ns
7.2.2 总体比例的区间估计
- 样本比例的标准化变量:
z = p − π π ( 1 − π ) / n ∼ N ( 0 , 1 ) z = \frac{p-\pi}{\sqrt{\pi(1-\pi)/n}{}} \sim N(0,1) z=π(1−π)/np−π∼N(0,1) - 总体比例
π
\pi
π在
1
−
α
1-\alpha
1−α置信水平下的置信区间为:
p ± z α / 2 p ( 1 − p ) n p \pm z_{\alpha/2} \sqrt{\frac{p(1-p)}{n}} p±zα/2np(1−p)
7.2.3 总体方差的区间估计
- 样本方差的标准化变量:
χ 2 = ( n − 1 ) s 2 σ 2 ∼ χ 2 ( n − 1 ) \chi^2 = \frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1) χ2=σ2(n−1)s2∼χ2(n−1) - 总体方差
σ
2
\sigma^2
σ2在
1
−
α
1-\alpha
1−α置信水平下的置信区间为:
χ 1 − α / 2 2 ≤ ( n − 1 ) s 2 σ 2 ≤ χ α / 2 2 \chi_{1-\alpha/2}^2 \le \frac{(n-1)s^2}{\sigma^2} \le \chi_{\alpha/2}^2 χ1−α/22≤σ2(n−1)s2≤χα/22
( n − 1 ) s 2 χ α / 2 2 ≤ σ 2 ≤ ( n − 1 ) s 2 χ 1 − α / 2 2 \frac{(n-1)s^2}{\chi_{\alpha/2}^2} \le \sigma^2 \le \frac{(n-1)s^2}{\chi_{1-\alpha/2}^2} χα/22(n−1)s2≤σ2≤χ1−α/22(n−1)s2
7.3 两个总体参数的区间估计
7.3.1 两个总体均值之差的区间估计
-
独立样本
如果两个样本是从两个不同的总体中独立抽取的,就称为独立样本。- 大样本:只要是大样本就有标准化变量:
z = ( x ˉ 1 − x ˉ 2 ) − ( μ 1 − μ 2 ) σ 1 2 n 1 + σ 2 2 n 2 ∼ N ( 0 , 1 ) z = \frac{(\bar x_1 - \bar x_2)-(\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n2}}} \sim N(0,1) z=n1σ12+n2σ22(xˉ1−xˉ2)−(μ1−μ2)∼N(0,1)
总体均值之差 μ 1 − μ 2 \mu_1 - \mu_2 μ1−μ2在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
( x ˉ 1 − x ˉ 2 ) ± z α / 2 σ 1 2 n 1 + σ 2 2 n 2 (\bar x_1 - \bar x_2)\pm z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}} (xˉ1−xˉ2)±zα/2n1σ12+n2σ22
或
( x ˉ 1 − x ˉ 2 ) ± z α / 2 s 1 2 n 1 + s 2 2 n 2 ( σ 未 知 时 ) (\bar x_1 - \bar x_2)\pm z_{\alpha/2}\sqrt{\frac{s_1^2}{n_1}+\frac{s_2^2}{n_2}}(\sigma未知时) (xˉ1−xˉ2)±zα/2n1s12+n2s22(σ未知时) - 小样本:两个总体需要服从正态分布
- 当两个总体方差 σ 1 2 \sigma_1^2 σ12和 σ 2 2 \sigma_2^2 σ22已知时:可使用大样本中的 z z z分布来计算
- 当两个总体方差
σ
1
2
\sigma_1^2
σ12和
σ
2
2
\sigma_2^2
σ22未知时:
-
σ
1
2
=
σ
2
2
\sigma_1^2 = \sigma_2^2
σ12=σ22时:
总体方差的合并估计量:
总体均值之差 μ 1 − μ 2 \mu_1 - \mu_2 μ1−μ2在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
-
σ
1
2
\sigma_1^2
σ12
≠
\ne
=
σ
2
2
\sigma_2^2
σ22时:
自由度v:
总体均值之差 μ 1 − μ 2 \mu_1 - \mu_2 μ1−μ2在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
-
σ
1
2
=
σ
2
2
\sigma_1^2 = \sigma_2^2
σ12=σ22时:
- 大样本:只要是大样本就有标准化变量:
-
匹配样本
d 和 d i : 两 个 匹 配 样 本 差 值 d和d_i:两个匹配样本差值 d和di:两个匹配样本差值
d ˉ : 全 部 匹 配 样 本 差 值 的 均 值 \bar d:全部匹配样本差值的均值 dˉ:全部匹配样本差值的均值
σ d : 总 体 各 差 值 的 标 准 差 \sigma_d:总体各差值的标准差 σd:总体各差值的标准差
s d : 样 本 差 值 的 标 准 差 s_d:样本差值的标准差 sd:样本差值的标准差- 大样本
两个总体均值之差 μ d = μ 1 − μ 2 \mu_d = \mu_1 - \mu_2 μd=μ1−μ2在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
d ˉ ± z α / 2 σ d n \bar d \pm z_{\alpha/2} \frac{\sigma_d}{\sqrt{n}} dˉ±zα/2nσd - 小样本:两个总体各观察值的配对差服从正态分布
两个总体均值之差 μ d = μ 1 − μ 2 \mu_d = \mu_1 - \mu_2 μd=μ1−μ2在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
d ˉ ± t α / 2 ( n − 1 ) s d n \bar d \pm t_{\alpha/2}(n-1) \frac{s_d}{\sqrt{n}} dˉ±tα/2(n−1)nsd
- 大样本
7.3.2 两个总体比例之差的区间估计
-
- 标准化变量:
- 标准化变量:
-
- 两个总体比例之差
π
1
−
π
2
\pi_1 - \pi_2
π1−π2在
1
−
α
1-\alpha
1−α 置信水平下
的置信区间为:
- 两个总体比例之差
π
1
−
π
2
\pi_1 - \pi_2
π1−π2在
1
−
α
1-\alpha
1−α 置信水平下
7.3.3 两个总体方差比的区间估计
这里面的 F α / 2 F_{\alpha/2} Fα/2和 F 1 − α / 2 F_{1-\alpha/2} F1−α/2都是服从分子自由度为 n 1 − 1 n_1-1 n1−1和分母自由度为 n 2 − 1 n_2-1 n2−1的F分布的分位数。
- 标准化变量:
F = s 1 2 s 2 2 ⋅ σ 2 2 σ 1 2 ∼ F ( n 1 − 1 , n 2 − 1 ) F = \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \sim F(n_1-1, n_2-1) F=s22s12⋅σ12σ22∼F(n1−1,n2−1)
因为:
F 1 − α / 2 ≤ F ≤ F α / 2 F_{1-\alpha/2} \le F \le F_{\alpha/2} F1−α/2≤F≤Fα/2
有:
F 1 − α / 2 ≤ s 1 2 s 2 2 ⋅ σ 2 2 σ 1 2 ≤ F α / 2 F_{1-\alpha/2} \le \frac{s_1^2}{s_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \le F_{\alpha/2} F1−α/2≤s22s12⋅σ12σ22≤Fα/2
所以总体方差比 σ 1 2 / σ 2 2 \sigma_1^2/\sigma_2^2 σ12/σ22在 1 − α 1-\alpha 1−α置信水平下的置信区间为:
s 1 2 / s 2 2 F α / 2 ≤ σ 1 2 σ 2 2 ≤ s 1 2 / s 2 2 F 1 − α / 2 \frac{{s_1^2}/{s_2^2}}{F_\alpha/2} \le \frac{\sigma_1^2}{\sigma_2^2} \le \frac{{{s_1^2}/{s_2^2}}}{F_{1-\alpha/2}} Fα/2s12/s22≤σ22σ12≤F1−α/2s12/s22
根据 F α / 2 F_{\alpha/2} Fα/2求 F 1 − α / 2 F_{1-\alpha/2} F1−α/2:
F 1 − α / 2 ( n 1 , n 2 ) = 1 F α ( n 2 , n 1 ) F_{1-\alpha/2}(n_1,n_2) = \frac{1}{F_{\alpha}(n_2, n_1)} F1−α/2(n1,n2)=Fα(n2,n1)1
7.3小结:
7.4 样本量的确定
在进行参数估计之前,首先应确定一个适当的样本量,也就是应该抽取一个多大的样本来估计总体参数,所以就需要确定样本量。
- E E E(希望估计误差):代表希望达到的标准误差;
- n n n(样本量):代表希望抽取的样本量,算出来的n向上取整;
7.4.1 估计总体均值时样本量的确定
- E = z α / 2 σ n E = z_{\alpha /2 }\frac{\sigma}{\sqrt{n}} E=zα/2nσ
- n = ( z α / 2 ) 2 σ 2 E 2 n = \frac{(z_{\alpha/2})^2\sigma^2}{E^2} n=E2(zα/2)2σ2
7.4.2 估计总体比例时样本量的确定
- E = z α / 2 π ( 1 − π ) n E = z_{\alpha /2 }\sqrt{\frac{\pi(1-\pi)}{n}} E=zα/2nπ(1−π)
- n = ( z α / 2 ) 2 π ( 1 − π ) E 2 n = \frac{(z_{\alpha/2})^2\pi(1-\pi)}{E^2} n=E2(zα/2)2π(1−π)