概率论与数理统计笔记(第六章——参数估计)
对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的《概率论与数理统计教程》,其他知识待后续书籍补充。
文章目录
一般场合, 常用 θ \theta θ 表示参数, 参数 θ \theta θ 所有可能取值组成的集合称为参数空间, 常用 Θ \Theta Θ 表示.
6.1 点估计的概念以及无偏性
6.1.1 点估计及无偏性
定义 6.1.1
设
x
1
,
⋯
,
x
n
x_1, \cdots, x_n
x1,⋯,xn 是来自总体的一个样本, 用于估计末知参数
θ
\theta
θ 的统计量
θ
^
=
θ
^
(
x
1
,
⋯
,
x
n
)
\hat{\theta}=\hat{\theta}\left(x_1, \cdots, x_n\right)
θ^=θ^(x1,⋯,xn) 称为
θ
\theta
θ 的估计量, 或称为
θ
\theta
θ 的点估计, 简称估计.
定义 6.1.2
设
θ
^
=
θ
^
(
x
1
,
⋯
,
x
n
)
\hat{\theta}=\hat{\theta}\left(x_1, \cdots, x_n\right)
θ^=θ^(x1,⋯,xn) 是
θ
\theta
θ 的一个估计,
θ
\theta
θ 的参数空间为
Θ
\Theta
Θ, 若对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
E
θ
(
θ
^
)
=
θ
,
E_\theta(\hat{\theta})=\theta,
Eθ(θ^)=θ,
则称
θ
^
\hat{\theta}
θ^ 是
θ
\theta
θ 的无偏估计, 否则称为有偏估计.并不是所有的参数都存在无偏估计, 当参数存在无偏估计时, 我们称该参数是可估的, 否则称它是不可估的.
6.1.2 有效性
定义 6.1.3 设
θ
^
1
,
θ
^
2
\hat{\theta}_1, \hat{\theta}_2
θ^1,θ^2 是
θ
\theta
θ 的两个无偏估计, 如果对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ 有
Var
(
θ
^
1
)
⩽
Var
(
θ
^
2
)
,
\operatorname{Var}\left(\hat{\theta}_1\right) \leqslant \operatorname{Var}\left(\hat{\theta}_2\right),
Var(θ^1)⩽Var(θ^2),
且至少有一个
θ
∈
Θ
\theta \in \Theta
θ∈Θ 使得上述不等号严格成立, 则称
θ
^
1
\hat{\theta}_1
θ^1 比
θ
^
2
\hat{\theta}_2
θ^2 有效.
6.2 矩估计以及相合性
6.2.1 替换原理和矩法估计
矩法估计的统计思想 (替换原理) 十分简单明确, 众人都能接受, 使用场合甚广. 它的实质是用经验分布函数去替换总体分布, 其理论基础是格里纹科定理.
6.2.2 概率函数已知时末知参数的矩估计
设总体具有已知的概率函数
p
(
x
;
θ
1
,
⋯
,
θ
k
)
,
(
θ
1
,
⋯
,
θ
k
)
∈
Θ
p\left(x ; \theta_1, \cdots, \theta_k\right),\left(\theta_1, \cdots, \theta_k\right) \in \Theta
p(x;θ1,⋯,θk),(θ1,⋯,θk)∈Θ 是末知参数或参数向量,
x
1
,
⋯
,
x
n
x_1, \cdots, x_n
x1,⋯,xn 是样本. 假定总体的
k
k
k 阶原点矩
μ
k
\mu_k
μk 存在, 则对所有的
j
j
j,
0
<
j
<
k
,
μ
j
0<j<k, \mu_j
0<j<k,μj 都存在, 若假设
θ
1
,
⋯
,
θ
k
\theta_1, \cdots, \theta_k
θ1,⋯,θk 能够表示成
μ
1
,
⋯
,
μ
k
\mu_1, \cdots, \mu_k
μ1,⋯,μk 的函数
θ
j
=
θ
j
(
μ
1
,
⋯
,
μ
k
)
\theta_j=\theta_j\left(\mu_1, \cdots, \mu_k\right)
θj=θj(μ1,⋯,μk), 则可给出诸
θ
j
\theta_j
θj 的矩估计:
θ
^
j
=
θ
i
(
a
1
,
⋯
,
a
k
)
,
j
=
1
,
⋯
,
k
,
\hat{\theta}_j=\theta_i\left(a_1, \cdots, a_k\right), \quad j=1, \cdots, k,
θ^j=θi(a1,⋯,ak),j=1,⋯,k,
其中
a
1
,
⋯
,
a
i
a_1, \cdots, a_i
a1,⋯,ai 是前
k
k
k 阶样本原点矩
a
j
=
1
n
∑
i
=
1
n
x
i
J
a_j=\frac{1}{n} \sum_{i=1}^n x_i^J
aj=n1∑i=1nxiJ. 进一步, 如果我们要估计
θ
1
,
⋯
,
θ
k
\theta_1, \cdots, \theta_k
θ1,⋯,θk 的函数
η
=
g
(
θ
1
,
⋯
,
θ
k
)
\eta=g\left(\theta_1, \cdots, \theta_k\right)
η=g(θ1,⋯,θk), 则可直接得到
η
\eta
η 的矩估计
η
^
=
g
(
θ
^
1
,
⋯
,
θ
^
k
)
,
\hat{\eta}=g\left(\hat{\theta}_1, \cdots, \hat{\theta}_k\right) \text {, }
η^=g(θ^1,⋯,θ^k),
6.2.3 相合性
定义 6.2.1 设
θ
∈
Θ
\theta \in \Theta
θ∈Θ 为末知参数,
θ
^
n
=
θ
^
n
(
x
1
,
⋯
,
x
n
)
\hat{\theta}_n=\hat{\theta}_n\left(x_1, \cdots, x_n\right)
θ^n=θ^n(x1,⋯,xn) 是
θ
\theta
θ 的一个估计量,
n
n
n 是样本容量, 若对任何一个
ε
>
0
\varepsilon>0
ε>0, 有
lim
n
→
∞
P
(
∣
θ
^
n
−
θ
∣
⩾
ε
)
=
0
,
\lim _{n \rightarrow \infty} P\left(\left|\hat{\theta}_n-\theta\right| \geqslant \varepsilon\right)=0,
n→∞limP(
θ^n−θ
⩾ε)=0,
则称
θ
^
n
\hat{\theta}_n
θ^n 为参数
θ
\theta
θ 的相合估计.
相合性被认为是对估计的一个最基本要求,。
定理 6.2.1 设 θ ^ n = θ ^ n ( x 1 , ⋯ , x n ) \hat{\theta}_{\mathrm{n}}=\hat{\theta}_n\left(x_1, \cdots, x_n\right) θ^n=θ^n(x1,⋯,xn) 是 θ \theta θ 的一个估计量, 若
lim n → ∞ E ( θ ^ n ) = θ , lim n → ∞ Var ( θ ^ n ) = 0 , \lim _{n \rightarrow \infty} E\left(\hat{\theta}_n\right)=\theta, \quad \lim _{n \rightarrow \infty} \operatorname{Var}\left(\hat{\theta}_n\right)=0, n→∞limE(θ^n)=θ,n→∞limVar(θ^n)=0,
则 θ ^ n \hat{\theta}_n θ^n 是 θ \theta θ 的相合估计.
定理 6.2.2 若 θ ^ n 1 , ⋯ , θ ^ n k \hat{\theta}_{n 1}, \cdots, \hat{\theta}_{n k} θ^n1,⋯,θ^nk 分别是 θ 1 , ⋯ , θ k \theta_1, \cdots, \theta_k θ1,⋯,θk 的相合估计, η = g ( θ 1 , ⋯ , θ k ) \eta=g\left(\theta_1, \cdots, \theta_k\right) η=g(θ1,⋯,θk) 是 θ 1 , ⋯ , θ k \theta_1, \cdots, \theta_k θ1,⋯,θk 的连续函数, 则 η ^ n = g ( θ ^ n 1 , ⋯ , θ ^ n k ) \hat{\eta}_n=g\left(\hat{\theta}_{n 1}, \cdots, \hat{\theta}_{n k}\right) η^n=g(θ^n1,⋯,θ^nk) 是 η \eta η 的相合估计.
6.3 最大似然估计与 E M \mathbf{E M} EM 算法
6.3.1 最大似然估计
定义 6.3.1 设总体的概率函数为
p
(
x
;
θ
)
,
θ
∈
Θ
p(x ; \theta), \theta \in \Theta
p(x;θ),θ∈Θ, 其中
θ
\theta
θ 是一个末知参数或几个末知参数组成的参数向量,
Θ
\Theta
Θ 是参数空间,
x
1
,
⋯
,
x
n
x_1, \cdots, x_n
x1,⋯,xn 是来自该总体的样本, 将样本的联合概率函数看成
θ
\theta
θ 的函数, 用
L
(
θ
;
x
1
,
⋯
,
x
n
)
L\left(\theta ; x_1, \cdots, x_n\right)
L(θ;x1,⋯,xn) 表示, 简记为
L
(
θ
)
L(\theta)
L(θ),
L
(
θ
)
=
L
(
θ
;
x
1
,
⋯
,
x
n
)
=
p
(
x
1
;
θ
)
p
(
x
2
;
θ
)
⋯
p
(
x
n
;
θ
)
,
L(\theta)=L\left(\theta ; x_1, \cdots, x_n\right)=p\left(x_1 ; \theta\right) p\left(x_2 ; \theta\right) \cdots p\left(x_n ; \theta\right),
L(θ)=L(θ;x1,⋯,xn)=p(x1;θ)p(x2;θ)⋯p(xn;θ),
L
(
θ
)
L(\theta)
L(θ) 称为样本的似然函数. 如果某统计量
θ
^
=
θ
^
(
x
1
,
⋯
,
x
n
)
\hat{\theta}=\hat{\theta}\left(x_1, \cdots, x_n\right)
θ^=θ^(x1,⋯,xn) 满足
L
(
θ
^
)
=
max
θ
∈
θ
L
(
θ
)
,
L(\hat{\theta})=\max _{\theta \in \theta} L(\theta),
L(θ^)=θ∈θmaxL(θ),
则称
θ
^
\hat{\theta}
θ^ 是
θ
\theta
θ 的最大似然估计,简记为 MLE (maximum likelihood estimate).
最大似然估计有一个简单而有用的性质: 如果 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的最大似然估计, 则对 任一函数 g ( θ ) g(\theta) g(θ), 其最大似然估计为 g ( θ ^ ) g(\hat{\theta}) g(θ^). 该性质称为最大似然估计的不变性,
6.3.2 EM 算法
MLE 是一种非常有效的参数估计方法,但当分布中有多余参数或数据为截尾或缺失时, 其 MLE 的求取是比较困难的. 于是 Dempster 等人于 1977 年提出了 EM 算法, 其出发点是把求 MLE 的过程分两步走, 第一步求期望, 以便把多余的部分去掉,第二步求极大值.
6.3.3 渐近正态性
定义 6.3.2
参数
θ
\theta
θ 的相合估计
θ
^
n
\hat{\theta}_n
θ^n 称为渐近正态的, 若存在趋于 0 的非负常数序列
σ
n
(
θ
)
\sigma_n(\theta)
σn(θ), 使得
θ
^
n
−
θ
σ
n
(
θ
)
\frac{\hat{\theta}_n-\theta}{\sigma_n(\theta)}
σn(θ)θ^n−θ 依分布收敛于标准正态分布. 这时也称
θ
^
n
\hat{\theta}_n
θ^n 服从渐近正态分布
N
(
θ
,
σ
n
2
(
θ
)
)
N\left(\theta, \sigma_n^2(\theta)\right)
N(θ,σn2(θ)), 记为
θ
^
n
∼
A
N
(
θ
,
σ
n
2
(
θ
)
)
.
σ
n
2
(
θ
)
\hat{\theta}_n \sim A N\left(\theta, \sigma_n^2(\theta)\right) . \sigma_n^2(\theta)
θ^n∼AN(θ,σn2(θ)).σn2(θ) 称为
θ
^
n
\hat{\theta}_n
θ^n 的渐近方差.
定理 6.3.1 设总体 X X X 有密度函数 p ( x ; θ ) , θ ∈ Θ , Θ p(x ; \theta), \theta \in \Theta, \Theta p(x;θ),θ∈Θ,Θ 为非退化区间, 假定
(1) 对任意的 x x x, 偏导数 ∂ ln p ∂ θ , ∂ 2 ln p ∂ θ 2 \frac{\partial \ln p}{\partial \theta}, \frac{\partial^2 \ln p}{\partial \theta^2} ∂θ∂lnp,∂θ2∂2lnp 和 ∂ 3 ln p ∂ θ 3 \frac{\partial^3 \ln p}{\partial \theta^3} ∂θ3∂3lnp 对所有 θ ∈ Θ \theta \in \Theta θ∈Θ 都存在;
(2) ∀ θ ∈ Θ \forall \theta \in \Theta ∀θ∈Θ, 有
∣ ∂ p ∂ θ ∣ < F 1 ( x ) , ∣ ∂ 2 p ∂ θ 2 ∣ < F 2 ( x ) , ∣ ∂ 3 ln p ∂ θ 3 ∣ < F 3 ( x ) , \left|\frac{\partial p}{\partial \theta}\right|<F_1(x), \quad\left|\frac{\partial^2 p}{\partial \theta^2}\right|<F_2(x), \quad\left|\frac{\partial^3 \ln p}{\partial \theta^3}\right|<F_3(x), ∂θ∂p <F1(x), ∂θ2∂2p <F2(x), ∂θ3∂3lnp <F3(x),
其中函数 F 1 ( x ) , F 2 ( x ) , F 3 ( x ) F_1(x), F_2(x), F_3(x) F1(x),F2(x),F3(x) 满足
∫ − ∞ ∞ F 1 ( x ) d x < ∞ , ∫ − ∞ ∞ F 2 ( x ) d x < ∞ , sup θ ∈ Θ ∫ − ∞ ∞ F 3 ( x ) p ( x ; θ ) d x < ∞ ; \begin{gathered} \int_{-\infty}^{\infty} F_1(x) \mathrm{d} x<\infty, \quad \int_{-\infty}^{\infty} F_2(x) \mathrm{d} x<\infty, \\ \sup _{\theta\in\Theta} \int_{-\infty}^{\infty} F_3(x) p(x ; \theta) \mathrm{d} x<\infty ; \end{gathered} ∫−∞∞F1(x)dx<∞,∫−∞∞F2(x)dx<∞,θ∈Θsup∫−∞∞F3(x)p(x;θ)dx<∞;
(3) ∀ θ ∈ Θ , 0 < I ( θ ) ≡ ∫ − ∞ ∞ ( ∂ ln p ∂ θ ) 2 p ( x ; θ ) d x < ∞ \forall \theta \in \Theta, 0<I(\theta) \equiv \int_{-\infty}^{\infty}\left(\frac{\partial \ln p}{\partial \theta}\right)^2 p(x ; \theta) \mathrm{d} x<\infty ∀θ∈Θ,0<I(θ)≡∫−∞∞(∂θ∂lnp)2p(x;θ)dx<∞.
若 x 1 , ⋯ , x n x_1, \cdots, x_n x1,⋯,xn 是来自该总体的样本, 则存在末知参数 θ \theta θ 的最大似然估计 θ ^ n = \hat{\theta}_n= θ^n= θ ^ n ( x 1 , ⋯ , x n ) \hat{\theta}_n\left(x_1, \cdots, x_n\right) θ^n(x1,⋯,xn), 且 θ ^ n \hat{\theta}_n θ^n 具有相合性和渐近正态性, θ ^ n ∼ A N ( θ , 1 n I ( θ ) ) \hat{\theta}_n \sim A N\left(\theta, \frac{1}{n I(\theta)}\right) θ^n∼AN(θ,nI(θ)1).
6.4 最小方差无偏估计
6.4.1 均方误差
相合性和渐近正态性是在大样本场合下评价估计好坏的两个重要标准, 在样本量不是很大时, 人们更加倾向于使用一些基于小样本的评价标准。评价一个点估计的好坏使用的度量指标总是点估计值
θ
^
\hat{\theta}
θ^ 与参数真值
θ
\theta
θ 的距离的函数,
MSE
(
θ
^
)
=
E
(
θ
^
−
θ
)
2
=
E
[
(
θ
^
−
E
θ
^
)
+
(
E
θ
^
−
θ
)
]
2
=
E
(
θ
^
−
E
θ
^
)
2
+
(
E
θ
^
−
θ
)
2
+
2
E
[
(
θ
^
−
E
θ
^
)
(
E
θ
^
−
θ
)
]
=
Var
(
θ
^
)
+
(
E
θ
^
−
θ
)
2
.
\begin{aligned} &\operatorname{MSE}(\hat{\theta})=E(\hat{\theta}-\theta)^2\\ & =E[(\hat{\theta}-E \hat{\theta})+(E \hat{\theta}-\theta)]^2 \\ & =E(\hat{\theta}-E \hat{\theta})^2+(E \hat{\theta}-\theta)^2+2 E[(\hat{\theta}-E \hat{\theta})(E \hat{\theta}-\theta)] \\ & =\operatorname{Var}(\hat{\theta})+(E \hat{\theta}-\theta)^2 . \end{aligned}
MSE(θ^)=E(θ^−θ)2=E[(θ^−Eθ^)+(Eθ^−θ)]2=E(θ^−Eθ^)2+(Eθ^−θ)2+2E[(θ^−Eθ^)(Eθ^−θ)]=Var(θ^)+(Eθ^−θ)2.
因此, 均方误差由点估计的方差与偏差
∣
E
θ
^
−
θ
∣
|E \hat{\theta}-\theta|
∣Eθ^−θ∣ 的平方两部分组成.
定义 6.4.1
设有样本
x
1
,
⋯
,
x
n
x_1, \cdots, x_n
x1,⋯,xn, 对待估参数
θ
\theta
θ, 设有一个估计类,称
θ
^
(
x
1
,
⋯
,
x
n
)
\hat{\theta}\left(x_1, \cdots, x_n\right)
θ^(x1,⋯,xn) 是该估计类中
θ
\theta
θ 的一致最小均方误差估计, 如果对该估计类中另外任意一个
θ
\theta
θ 的估计
θ
~
\tilde{\theta}
θ~, 在参数空间
Θ
\Theta
Θ 上都有
MSE
θ
(
θ
^
)
⩽
MSE
θ
(
θ
~
)
.
\operatorname{MSE}_\theta(\hat{\theta}) \leqslant \operatorname{MSE}_\theta(\widetilde{\theta}) .
MSEθ(θ^)⩽MSEθ(θ
).
6.4.2 最小方差无偏估计
定义 6.4.2
对参数估计问题, 设
θ
^
\hat{\theta}
θ^ 是
θ
\theta
θ 的一个无偏估计, 如果对另外任意一个
θ
\theta
θ 的无偏估计
θ
~
\tilde{\theta}
θ~, 在参数空间
Θ
\Theta
Θ 上都有
Var
θ
(
θ
^
)
⩽
Var
θ
(
θ
~
)
,
\operatorname{Var}_\theta(\hat{\theta}) \leqslant \operatorname{Var}_\theta(\tilde{\theta}),
Varθ(θ^)⩽Varθ(θ~),
则称
θ
^
\hat{\theta}
θ^ 是
θ
\theta
θ 的一致最小方差无偏估计, 简记为 UMVUE.
定理 6.4.1 设 X = ( x 1 , ⋯ , x n ) X=\left(x_1, \cdots, x_n\right) X=(x1,⋯,xn) 是来自某总体的一个样本, θ ^ = θ ^ ( X ) \hat{\theta}=\hat{\theta}(X) θ^=θ^(X) 是 θ \theta θ 的 一个无偏估计, Var ( θ ^ ) < ∞ \operatorname{Var}(\hat{\theta})<\infty Var(θ^)<∞. 则 θ ^ \hat{\theta} θ^ 是 θ \theta θ 的 UMVUE 的充要条件是, 对任意一个满足 E ( φ ( X ) ) = 0 E(\varphi(X))=0 E(φ(X))=0 和 Var ( φ ( X ) ) < ∞ \operatorname{Var}(\varphi(X))<\infty Var(φ(X))<∞ 的 φ ( X ) \varphi(X) φ(X), 都有
Cov θ ( θ ^ , φ ) = 0 , ∀ θ ∈ Θ . \operatorname{Cov}_\theta(\hat{\theta}, \varphi)=0, \quad \forall \theta \in \Theta . Covθ(θ^,φ)=0,∀θ∈Θ.
6.4.3 充分性原则
定理 6.4.2 设总体概率函数是 p ( x ; θ ) , x 1 , ⋯ , x n p(x ; \theta), x_1, \cdots, x_n p(x;θ),x1,⋯,xn 是其样本, T = T ( x 1 , ⋯ T=T\left(x_1, \cdots\right. T=T(x1,⋯, x n ) \left.x_n\right) xn) 是 θ \theta θ 的充分统计旺, 则对 θ \theta θ 的任一无偏估计 θ ^ = θ ^ ( x 1 , ⋯ , x n ) \hat{\theta}=\hat{\theta}\left(x_1, \cdots, x_n\right) θ^=θ^(x1,⋯,xn), 令 θ ~ = E ( θ ^ ∣ T ) \tilde{\theta}=E(\hat{\theta} \mid T) θ~=E(θ^∣T), 则 θ ~ \tilde{\theta} θ~ 也是 θ \theta θ 的无偏估计, 且
Var ( θ ~ ) ⩽ Var ( θ ^ ) . \operatorname{Var}(\tilde{\theta}) \leqslant \operatorname{Var}(\hat{\theta}) . Var(θ~)⩽Var(θ^).
6.4.4 Cramer-Rao 不等式
定义 6.4.3
设总体的概率函数
p
(
x
;
θ
)
,
θ
∈
Θ
p(x ; \theta), \theta \in \Theta
p(x;θ),θ∈Θ 满足下列条件:
(1) 参数空间
Θ
\Theta
Θ 是直线上的一个开区间;
(2) 支撑
S
=
{
x
:
p
(
x
;
θ
)
>
0
}
S=\{x: p(x ; \theta)>0\}
S={x:p(x;θ)>0} 与
θ
\theta
θ 无关;
(3) 导数
∂
∂
θ
p
(
x
;
θ
)
\frac{\partial}{\partial \theta} p(x ; \theta)
∂θ∂p(x;θ) 对一切
θ
∈
Θ
\theta \in \Theta
θ∈Θ 都存在;
(4) 对
p
(
x
;
θ
)
p(x ; \theta)
p(x;θ), 积分与微分运算可交换次序, 即
∂
∂
θ
∫
−
∞
∞
p
(
x
;
θ
)
d
x
=
∫
−
∞
∞
∂
∂
θ
p
(
x
;
θ
)
d
x
;
\frac{\partial}{\partial \theta} \int_{-\infty}^{\infty} p(x ; \theta) \mathrm{d} x=\int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} p(x ; \theta) \mathrm{d} x ;
∂θ∂∫−∞∞p(x;θ)dx=∫−∞∞∂θ∂p(x;θ)dx;
(5) 期望
E
[
∂
∂
θ
ln
p
(
x
;
θ
)
]
2
E\left[\frac{\partial}{\partial \theta} \ln p(x ; \theta)\right]^2
E[∂θ∂lnp(x;θ)]2 存在,
则称
I
(
θ
)
=
E
[
∂
∂
θ
ln
p
(
x
;
θ
)
]
2
I(\theta)=E\left[\frac{\partial}{\partial \theta} \ln p(x ; \theta)\right]^2
I(θ)=E[∂θ∂lnp(x;θ)]2
为总体分布的费希尔信息量.
定理 6.4.3 (Cramer-Rao 不等式) 设总体分布 p ( x ; θ ) p(x ; \theta) p(x;θ) 满足定义 6.4.3 的 条件, x 1 , ⋯ , x n x_1, \cdots, x_n x1,⋯,xn 是来自该总体的样本, T = T ( x 1 , ⋯ , x n ) T=T\left(x_1, \cdots, x_n\right) T=T(x1,⋯,xn) 是 g ( θ ) g(\theta) g(θ) 的任一个无偏估计, g ′ ( θ ) = ∂ g ( θ ) ∂ θ g^{\prime}(\theta)=\frac{\partial g(\theta)}{\partial \theta} g′(θ)=∂θ∂g(θ) 存在, 且对 Θ \Theta Θ 中一切 θ \theta θ, 对
g ( θ ) = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ T ( x 1 , ⋯ , x n ) ∏ i = 1 n p ( x i ; θ ) d x 1 ⋯ d x n g(\theta)=\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} T\left(x_1, \cdots, x_n\right) \prod_{i=1}^n p\left(x_i ; \theta\right) \mathrm{d} x_1 \cdots \mathrm{d} x_n g(θ)=∫−∞∞⋯∫−∞∞T(x1,⋯,xn)i=1∏np(xi;θ)dx1⋯dxn
的微商可在积分号下进行, 即
g ′ ( θ ) = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ T ( x 1 , ⋯ , x n ) ∂ ∂ θ ( ∏ i = 1 n p ( x i ; θ ) ) d x 1 ⋯ d x n = ∫ − ∞ ∞ ⋯ ∫ − ∞ ∞ T ( x 1 , ⋯ , x n ) [ ∂ ∂ θ ln ∏ i = 1 n p ( x i ; θ ) ] ∏ i = 1 n p ( x i ; θ ) d x 1 ⋯ d x n . ( 6.4.4 ) \begin{aligned} g^{\prime}(\theta) & =\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} T\left(x_1, \cdots, x_n\right) \frac{\partial}{\partial \theta}\left(\prod_{i=1}^n p\left(x_i ; \theta\right)\right) \mathrm{d} x_1 \cdots \mathrm{d} x_n \\ & =\int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} T\left(x_1, \cdots, x_n\right)\left[\frac{\partial}{\partial \theta} \ln \prod_{i=1}^n p\left(x_i ; \theta\right)\right] \prod_{i=1}^n p\left(x_i ; \theta\right) \mathrm{d} x_1 \cdots \mathrm{d} x_n .(6.4 .4) \end{aligned} g′(θ)=∫−∞∞⋯∫−∞∞T(x1,⋯,xn)∂θ∂(i=1∏np(xi;θ))dx1⋯dxn=∫−∞∞⋯∫−∞∞T(x1,⋯,xn)[∂θ∂lni=1∏np(xi;θ)]i=1∏np(xi;θ)dx1⋯dxn.(6.4.4)
对离散总体, 则将上述积分改为求和符号后, 等式仍然成立. 则有
Var ( T ) ⩾ [ g ′ ( θ ) ] 2 / ( n I ( θ ) ) . (6.4.5) \operatorname{Var}(T) \geqslant\left[g^{\prime}(\theta)\right]^2 /(n I(\theta)) \text {. (6.4.5) } Var(T)⩾[g′(θ)]2/(nI(θ)). (6.4.5)
(6. 4. 5) 称为克拉默-拉奥 (C-R) 不等式, [ g ′ ( θ ) ] 2 / ( n I ( θ ) ) \left[g^{\prime}(\theta)\right]^2 /(n I(\theta)) [g′(θ)]2/(nI(θ)) 称为 g ( θ ) g(\theta) g(θ) 的无偏估计的方差的 C-R 下界, 简称 g ( θ ) g(\theta) g(θ) 的 C-R 下界. 特别, 对 θ \theta θ 的无偏估计 θ ^ \hat{\theta} θ^, 有 Var ( θ ^ ) ⩾ ( n I ( θ ) ) − 1 \operatorname{Var}(\hat{\theta}) \geqslant(n I(\theta))^{-1} Var(θ^)⩾(nI(θ))−1.
6.5 贝叶斯估计
6.5.1 统计推断的基础
(1)总体信息
总体信息即总体分布或总体所属分布族提供的信息.
(2) 样本信息
样本信息即抽取样本所得观测值提供的信息.
(3) 先验信息
先验信息即是抽样 (试验)之前有关统计问题的一些信息. 一般说来, 先验信息来源于经验和历史资料.
基于上述三种信息进行统计推断的统计学称为贝叶斯统计学.
贝叶斯学派的基本观点是: 任一末知量
θ
\theta
θ 都可看作随机变量, 可用一个概率分布去描述, 这个分布称为先验分布; 在获得样本之后, 总体分布、样本与先验分布通过贝叶斯公式结合起来得到一个关于末知量
θ
\theta
θ 的新分布一一后验分布; 任 何关于
θ
\theta
θ 的统计推断都应该基于
θ
\theta
θ 的后验分布进行.
6.5.2 贝叶斯公式的密度函数形式
(1) 总体依赖于参数
θ
\theta
θ 的概率函数在经典统计中记为
p
(
x
;
θ
)
p(x ; \theta)
p(x;θ), 它表示参数 空间
Θ
\Theta
Θ 中不同的
θ
\theta
θ 对应不同的分布. 在贝叶斯统计中应记为
p
(
x
∣
θ
)
p(x \mid \theta)
p(x∣θ), 它表示在随机变量
θ
\theta
θ 取某个给定值时总体的条件概率函数.
(2) 根据参数
θ
\theta
θ 的先验信息确定先验分布
π
(
θ
)
\pi(\theta)
π(θ).
(3) 从贝叶斯观点看, 样本
X
=
(
x
1
,
⋯
,
x
n
)
X=\left(x_1, \cdots, x_n\right)
X=(x1,⋯,xn) 的产生要分两步进行. 首先设想从先验分布
π
(
θ
)
\pi(\theta)
π(θ) 产生一个样本
θ
0
\theta_0
θ0. 这一步是 “老天爷” 做的, 人们是看不到的, 故用“设想”二字. 第二步从
p
(
X
∣
θ
0
)
p\left(\boldsymbol{X} \mid \theta_0\right)
p(X∣θ0) 中产生一组样本. 这时样本
X
=
(
x
1
,
⋯
,
x
n
)
\boldsymbol{X}=\left(x_1, \cdots, x_n\right)
X=(x1,⋯,xn) 的联合条件概率函数为
p
(
X
∣
θ
0
)
=
p
(
x
1
,
⋯
,
x
n
∣
θ
0
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
0
)
,
p\left(\boldsymbol{X} \mid \theta_0\right)=p\left(x_1, \cdots, x_n \mid \theta_0\right)=\prod_{i=1}^n p\left(x_i \mid \theta_0\right),
p(X∣θ0)=p(x1,⋯,xn∣θ0)=i=1∏np(xi∣θ0),
这个分布综合了总体信息和样本信息.
(4) 由于
θ
0
\theta_0
θ0 是设想出来的, 仍然是末知的, 它是按先验分布
π
(
θ
)
\pi(\theta)
π(θ) 产生的. 为把先验信息综合进去, 不能只考虑
θ
0
\theta_0
θ0, 对
θ
\theta
θ 的其他值发生的可能性也要加以考虑, 故要用
π
(
θ
)
\pi(\theta)
π(θ) 进行综合. 这样一来, 样本
X
X
X 和参数
θ
\theta
θ 的联合分布为
h
(
X
,
θ
)
=
p
(
X
∣
θ
)
π
(
θ
)
.
h(X, \theta)=p (X | \theta ) \pi(\theta) .
h(X,θ)=p(X∣θ)π(θ).
这个联合分布把总体信息、样本信息和先验信息三种可用信息都综合进去了.
(5) 我们的目的是要对末知参数
θ
\theta
θ 作统计推断. 在没有样本信息时, 我们只 能依据先验分布对
θ
\theta
θ 作出推断. 在有了样本观测值
X
=
(
x
1
,
⋯
,
x
n
)
X=\left(x_1, \cdots, x_n\right)
X=(x1,⋯,xn) 之后, 我们应依据
h
(
X
,
θ
)
h(X, \theta)
h(X,θ) 对
θ
\theta
θ 作出推断. 若把
h
(
X
,
θ
)
h(X, \theta)
h(X,θ) 作如下分解:
h
(
X
,
θ
)
=
π
(
θ
∣
X
)
m
(
X
)
,
h(\boldsymbol{X}, \theta)=\pi(\theta \mid \boldsymbol{X}) m(\boldsymbol{X}),
h(X,θ)=π(θ∣X)m(X),
其中
m
(
X
)
m(X)
m(X) 是
X
\boldsymbol{X}
X 的边际概率函数
m
(
X
)
=
∫
θ
h
(
X
,
θ
)
d
θ
=
∫
θ
p
(
X
∣
θ
)
π
(
θ
)
d
θ
,
m(\boldsymbol{X})=\int_\theta h(\boldsymbol{X}, \theta) \mathrm{d} \theta=\int_{\boldsymbol{\theta}} p(\boldsymbol{X} \mid \theta) \pi(\theta) \mathrm{d} \theta,
m(X)=∫θh(X,θ)dθ=∫θp(X∣θ)π(θ)dθ,
它与
θ
\theta
θ 无关, 或者说
m
(
X
)
m(\boldsymbol{X})
m(X) 中不含
θ
\theta
θ 的任何信息. 因此能用来对
θ
\theta
θ 作出推断的仅是条件分布
π
(
θ
∣
X
)
\pi(\theta \mid \boldsymbol{X})
π(θ∣X), 它的计算公式是
π
(
θ
∣
X
)
=
h
(
X
,
θ
)
m
(
X
)
=
p
(
X
∣
θ
)
π
(
θ
)
∫
θ
p
(
X
∣
θ
)
π
(
θ
)
d
θ
.
\pi(\theta \mid \boldsymbol{X})=\frac{h(\boldsymbol{X}, \theta)}{m(\boldsymbol{X})}=\frac{p(\boldsymbol{X} \mid \theta) \pi(\theta)}{\int_\theta p(\boldsymbol{X} \mid \theta) \pi(\theta) \mathrm{d} \theta} .
π(θ∣X)=m(X)h(X,θ)=∫θp(X∣θ)π(θ)dθp(X∣θ)π(θ).
这个条件分布称为
θ
\theta
θ 的后验分布, 它集中了总体、样本和先验中有关
θ
\theta
θ 的一切信 息.
6.5.3 贝叶斯估计
由后验分布 π ( θ ∣ X ) \pi(\theta \mid X) π(θ∣X) 估计 θ \theta θ 有三种常用的方法:
- 使用后验分布的密度函数最大值点作为 θ \theta θ 的点估计的最大后验估计.
- 使用后验分布的中位数作为 θ \theta θ 的点估计的后验中位数估计.
- 使用后验分布的均值作为 θ \theta θ 的点估计的后验期望估计.
用得最多的是后验期望估计,它一般也简称为贝叶斯估计, 记为 θ ^ B \hat{\theta}_B θ^B.
6.5.4 共轭先验分布
定义 6.5.1
设
θ
\theta
θ 是总体分布
p
(
x
;
θ
)
p(x ; \theta)
p(x;θ) 中的参数,
π
(
θ
)
\pi(\theta)
π(θ) 是其先验分布, 若对任意来自
p
(
x
;
θ
)
p(x ; \theta)
p(x;θ) 的样本观测值得到的后验分布
π
(
θ
∣
X
)
\pi(\theta \mid X)
π(θ∣X) 与
π
(
θ
)
\pi(\theta)
π(θ) 属于同一个分布族, 则称该分布族是
θ
\theta
θ 的共轭先验分布 (族).
6.6 区间估计
6.6.1 区间估计的概念
定义 6.6.1
设
θ
\theta
θ 是总体的一个参数, 其参数空间为
Θ
,
x
1
,
⋯
,
x
n
\Theta, x_1, \cdots, x_n
Θ,x1,⋯,xn 是来自该总体的样本, 对给定的一个
α
(
0
<
α
<
1
)
\alpha(0<\alpha<1)
α(0<α<1), 假设有两个统计量
θ
^
L
=
θ
^
L
(
x
1
,
⋯
,
x
n
)
\hat{\theta}_L=\hat{\theta}_L\left(x_1, \cdots, x_n\right)
θ^L=θ^L(x1,⋯,xn) 和
θ
^
U
=
θ
^
U
(
x
1
,
⋯
,
x
n
)
\hat{\theta}_U=\hat{\theta}_U\left(x_1, \cdots, x_n\right)
θ^U=θ^U(x1,⋯,xn), 若对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
P
θ
(
θ
^
L
⩽
θ
⩽
θ
^
v
)
⩾
1
−
α
,
P_\theta\left(\hat{\theta}_L \leqslant \theta \leqslant \hat{\theta}_v\right) \geqslant 1-\alpha,
Pθ(θ^L⩽θ⩽θ^v)⩾1−α,
则称随机区间
[
θ
^
L
,
θ
^
U
]
\left[\hat{\theta}_L, \hat{\theta}_U\right]
[θ^L,θ^U] 为
θ
\theta
θ 的置信水平为
1
−
α
1-\alpha
1−α 的置信区间, 或简称
[
θ
^
L
,
θ
^
U
]
\left[\hat{\theta}_L, \hat{\theta}_U\right]
[θ^L,θ^U] 是
θ
\theta
θ 的
1
−
α
1-\alpha
1−α 置信区间,
θ
^
L
\hat{\theta}_L
θ^L 和
θ
^
U
\hat{\theta}_U
θ^U 分别称为
θ
\theta
θ 的 (双侧) 置信下限和置信上限.
定义 6.6.2
沿用 定义 6.6.1 的记号, 如对给定的
α
(
0
<
α
<
1
)
\alpha(0<\alpha<1)
α(0<α<1), 对任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
P
θ
(
θ
^
L
⩽
θ
⩽
θ
^
v
)
=
1
−
α
,
P_\theta\left(\hat{\theta}_L \leqslant \theta \leqslant \hat{\theta}_v\right)=1-\alpha,
Pθ(θ^L⩽θ⩽θ^v)=1−α,
则称
[
θ
^
L
,
θ
^
U
]
\left[\hat{\theta}_L, \hat{\theta}_U\right]
[θ^L,θ^U] 为
θ
\theta
θ 的
1
−
α
1-\alpha
1−α 同等置信区间.
定义 6.6.3
设
θ
^
L
=
θ
^
L
(
x
1
,
⋯
,
x
n
)
\hat{\theta}_L=\hat{\theta}_L\left(x_1, \cdots, x_n\right)
θ^L=θ^L(x1,⋯,xn) 是统计量, 对给定的
α
∈
(
0
,
1
)
\alpha \in(0,1)
α∈(0,1) 和任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
P
θ
(
θ
^
L
⩽
θ
)
⩾
1
−
α
,
∀
θ
∈
Θ
,
P_\theta\left(\hat{\theta}_L \leqslant \theta\right) \geqslant 1-\alpha, \quad \forall \theta \in \Theta,
Pθ(θ^L⩽θ)⩾1−α,∀θ∈Θ,
则称
θ
^
L
\hat{\theta}_L
θ^L 为
θ
\theta
θ 的置信水平为
1
−
α
1-\alpha
1−α 的 (单侧) 置信下限. 假如等号对一切
θ
∈
Θ
\theta \in \Theta
θ∈Θ 成立, 则称
θ
^
L
\hat{\theta}_L
θ^L 为
θ
\theta
θ 的
1
−
α
1-\alpha
1−α 同等置信下限.
定义 6.6.4
设
θ
^
U
=
θ
^
U
(
x
1
,
⋯
,
x
n
)
\hat{\theta}_U=\hat{\theta}_U\left(x_1, \cdots, x_n\right)
θ^U=θ^U(x1,⋯,xn) 是统计量, 对给定的
α
∈
(
0
,
1
)
\alpha \in(0,1)
α∈(0,1) 和任意的
θ
∈
Θ
\theta \in \Theta
θ∈Θ, 有
P
θ
(
θ
^
U
⩾
θ
)
⩾
1
−
α
,
P_\theta\left(\hat{\theta}_U \geqslant \theta\right) \geqslant 1-\alpha,
Pθ(θ^U⩾θ)⩾1−α,
则称
θ
^
U
\hat{\theta}_U
θ^U 为
θ
\theta
θ 的置信水平为
1
−
α
1-\alpha
1−α 的(单侧) 置信上限. 若等号对一切
θ
∈
Θ
\theta \in \Theta
θ∈Θ 成立, 则称
θ
^
U
\hat{\theta}_U
θ^U 为
θ
\theta
θ 的
1
−
α
1-\alpha
1−α 同等置信上限.
6.6.2 枢轴量法
构造末知参数 θ \theta θ 的置信区间的最常用的方法是枢轴量法, 其步聚可以概括为如下三步:
- 设法构造一个样本和 θ \theta θ 的函数 G = G ( x 1 , ⋯ , x n , θ ) G=G\left(x_1, \cdots, x_{\mathrm{n}}, \theta\right) G=G(x1,⋯,xn,θ) 使得 G G G 的分布不依赖于末知参数. 一般称具有这种性质的 G G G 为枢轴量.
- 适当地选择两个常数
c
,
d
c, d
c,d, 使对给定的
α
(
0
<
α
<
1
)
\alpha(0<\alpha<1)
α(0<α<1), 有
P ( c ⩽ G ⩽ d ) = 1 − α . P(c \leqslant G \leqslant d)=1-\alpha . P(c⩽G⩽d)=1−α.
在离散场合, 上式等号改为大于等于 ( ⩾ ) (\geqslant) (⩾). - 假如能将
c
⩽
G
⩽
d
c \leqslant G \leqslant d
c⩽G⩽d 进行不等式等价变形化为
θ
^
L
⩽
θ
⩽
θ
^
U
\hat{\theta}_L\leqslant \theta \leqslant \hat{\theta}_U
θ^L⩽θ⩽θ^U, 则有
P θ ( θ ^ L ⩽ θ ⩽ θ ^ U ) = 1 − α , P_{\theta}\left(\hat{\theta}_L \leqslant \theta \leqslant \hat{\theta}_U\right)=1-\alpha, Pθ(θ^L⩽θ⩽θ^U)=1−α,
这表明 [ θ ^ L , θ ^ U ] \left[\hat{\theta}_L, \hat{\theta}_{U}\right] [θ^L,θ^U] 是 θ \theta θ 的 1 − α 1-\alpha 1−α 同等置信区间.
枢轴量的寻找一般从
θ
\theta
θ 的点估计出发. 而满足的
c
,
d
c, d
c,d 可以有很多, 选择的目的是平均长度
E
θ
(
θ
^
U
−
θ
^
L
)
E_\theta\left(\hat{\theta}_U-\hat{\theta}_L\right)
Eθ(θ^U−θ^L) 尽可能短. 假如可以找到这样的
c
,
d
c, d
c,d 使
E
θ
(
θ
^
U
−
θ
^
L
)
E_\theta\left(\hat{\theta}_U-\hat{\theta}_L\right)
Eθ(θ^U−θ^L) 达到最短当然是最好的, 不过在不少场合很难做到这一点. 故常这样选择
c
c
c 和
d
d
d, 使得两个尾部概率各为
α
/
2
\alpha / 2
α/2, 即
P
θ
(
G
<
c
)
=
P
θ
(
G
>
d
)
=
α
/
2
,
P_\theta(G<c)=P_\theta(G>d)=\alpha / 2,
Pθ(G<c)=Pθ(G>d)=α/2,
这样得到的置信区间称为等尾置信区间. 实用的置信区间大都是等尾置信区间.
6.6.3 单个正态总体参数的置信区间
正态总体
N
(
μ
,
σ
2
)
N\left(\mu, \sigma^2\right)
N(μ,σ2) 是最常见的分布, 本小节中我们讨论它的两个参数的置信区间.
一、
σ
\sigma
σ 已知时
μ
\mu
μ 的置信区间
在这种情况下, 由于
μ
\mu
μ 的点估计为
x
ˉ
\bar{x}
xˉ, 其分布为
N
(
μ
,
σ
2
/
n
)
N\left(\mu, \sigma^2 / n\right)
N(μ,σ2/n), 因此枢轴量可选为
G
=
x
ˉ
−
μ
σ
/
n
∼
N
(
0
,
1
)
,
c
G=\frac{\bar{x}-\mu}{\sigma / \sqrt{n}} \sim N(0,1), c
G=σ/nxˉ−μ∼N(0,1),c 和
d
d
d 应满足
P
(
c
⩽
G
⩽
d
)
=
Φ
(
d
)
−
Φ
(
c
)
=
1
−
α
P(c \leqslant G \leqslant d)=\Phi(d)-\Phi(c)=1-\alpha
P(c⩽G⩽d)=Φ(d)−Φ(c)=1−α, 经过不等式变形可得
P
μ
(
x
ˉ
−
d
σ
/
n
⩽
μ
⩽
x
ˉ
−
c
σ
/
n
)
=
1
−
α
,
P_\mu(\bar{x}-d \sigma / \sqrt{n} \leqslant \mu \leqslant \bar{x}-c \sigma / \sqrt{n})=1-\alpha,
Pμ(xˉ−dσ/n⩽μ⩽xˉ−cσ/n)=1−α,
由此给出了
μ
\mu
μ 的
1
−
α
1-\alpha
1−α 同等置信区间为
[
x
ˉ
−
u
1
−
a
/
2
σ
/
n
,
x
ˉ
+
u
1
−
α
/
2
σ
/
n
]
.
\left[\bar{x}-u_{1-\mathrm{a}/2} \sigma / \sqrt{n}, \quad \bar{x}+u_{1-\alpha / 2} \sigma / \sqrt{n}\right] .
[xˉ−u1−a/2σ/n,xˉ+u1−α/2σ/n].
二、
σ
\sigma
σ 末知时
μ
\mu
μ 的置信区间
这时可用
t
t
t 统计量, 因为
t
=
n
(
x
ˉ
−
μ
)
s
∼
t
(
n
−
1
)
t=\frac{\sqrt{n}(\bar{x}-\mu)}{s} \sim t(n-1)
t=sn(xˉ−μ)∼t(n−1), 因此
t
t
t 可以用来作为枢轴量, 可得到
μ
\mu
μ 的
1
−
α
1-\alpha
1−α 置信区间为
x
ˉ
±
t
1
−
α
/
2
(
n
−
1
)
s
/
n
\bar{x} \pm t_{1-\alpha / 2}(n-1) s / \sqrt{n}
xˉ±t1−α/2(n−1)s/n
此处
s
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
s^2=\frac{1}{n-1} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2
s2=n−11∑i=1n(xi−xˉ)2 是
σ
2
\sigma^2
σ2 的无偏估计.
三、
σ
2
\sigma^2
σ2 的置信区间
我们只在
μ
\mu
μ 末知的条件下讨论
σ
2
\sigma^2
σ2 的置信区间. 在
5.3
5.3
5.3 中我们已经证明
(
n
−
1
)
s
2
σ
2
∼
χ
2
(
n
−
1
)
\frac{(n-1) s^2}{\sigma^2} \sim \chi^2(n-1)
σ2(n−1)s2∼χ2(n−1), 给出
σ
2
\sigma^2
σ2 的
1
−
α
1-\alpha
1−α 置信区间为
[
(
n
−
1
)
s
2
/
χ
1
−
α
/
2
2
(
n
−
1
)
,
(
n
−
1
)
s
2
/
χ
n
/
2
2
(
n
−
1
)
]
.
\left[(n-1) s^2 / \chi_{1-\alpha / 2}^2(n-1), \quad(n-1) s^2 / \chi_{n / 2}^2(n-1)\right] \text {. }
[(n−1)s2/χ1−α/22(n−1),(n−1)s2/χn/22(n−1)].
将两端开方即得到标准差
σ
\sigma
σ 的
1
−
α
1-\alpha
1−α 置信区间.
6.6.4 大样本置信区间
设
x
1
,
⋯
,
x
n
x_1, \cdots, x_n
x1,⋯,xn 是来自二点分布
b
(
1
,
p
)
b(1, p)
b(1,p) 的样本, 现要求
p
p
p 的
1
−
α
1-\alpha
1−α 置信区间. 由中心极限定理知, 样本均值
x
ˉ
\bar{x}
xˉ 的渐近分布为
N
(
p
,
p
(
1
−
p
)
n
)
N\left(p, \frac{p(1-p)}{n}\right)
N(p,np(1−p)), 因此有
u
=
x
ˉ
−
p
p
(
1
−
p
)
/
n
∼
˙
N
(
0
,
1
)
.
u=\frac{\bar{x}-p}{\sqrt{p(1-p) / n}} \dot{\sim}N(0,1) .
u=p(1−p)/nxˉ−p∼˙N(0,1).
可将置信区间近似为
[
x
ˉ
−
u
1
−
α
/
2
x
ˉ
(
1
−
x
ˉ
)
n
,
x
ˉ
+
u
1
−
α
/
2
x
ˉ
(
1
−
x
ˉ
)
n
]
.
\left[\bar{x}-u_{1-\alpha / 2} \sqrt{\frac{\bar{x}(1-\bar{x})}{n}}, \bar{x}+u_{1-\alpha / 2} \sqrt{\frac{\bar{x}(1-\bar{x})}{n}}\right] \text {. }
[xˉ−u1−α/2nxˉ(1−xˉ),xˉ+u1−α/2nxˉ(1−xˉ)].
6.6.5 样本量的确定
根据之前构建的置信区间长度判断。
6.6.6 两个正态总体下的置信区间
设
x
1
,
⋯
,
x
m
x_1, \cdots, x_m
x1,⋯,xm 是来自
N
(
μ
1
,
σ
1
2
)
N\left(\mu_1, \sigma_1^2\right)
N(μ1,σ12) 的样本,
y
1
,
⋯
,
y
n
y_1, \cdots, y_n
y1,⋯,yn 是来自
N
(
μ
2
,
σ
2
2
)
N\left(\mu_2, \sigma_2^2\right)
N(μ2,σ22) 的样本, 且两个样本相互独立.
x
ˉ
\bar{x}
xˉ 与
y
ˉ
\bar{y}
yˉ 分别是它们的样本均值,
s
x
2
=
1
m
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
s_x^2=\frac{1}{m-1} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2
sx2=m−11∑i=1n(xi−xˉ)2 和
s
y
2
=
1
n
−
1
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
s_y^2=\frac{1}{n-1} \sum_{i=1}^n\left(y_i-\bar{y}\right)^2
sy2=n−11∑i=1n(yi−yˉ)2 分别是它们的样本方差. 下面讨论两个均值差和两个方差比的䍜信区间.
一、
μ
1
−
μ
2
\mu_1-\mu_2
μ1−μ2 的置信区间
-
1. σ 1 2 \sigma_1^2 σ12 和 σ 2 2 \sigma_2^2 σ22 已知时
此时有 x ˉ − y ˉ ∼ N ( μ 1 − μ 2 , σ 1 2 m + σ 2 2 n ) \bar{x}-\bar{y} \sim N\left(\mu_1-\mu_2, \frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}\right) xˉ−yˉ∼N(μ1−μ2,mσ12+nσ22), 取枢轴量为 u = x ˉ − y ˉ − ( μ 1 − μ 2 ) σ 1 2 m + σ 2 2 n ∼ N ( 0 , 1 ) , u=\frac{\bar{x}-\bar{y}-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}}} \sim N(0,1), u=mσ12+nσ22xˉ−yˉ−(μ1−μ2)∼N(0,1),
沿用前面多次用过的方法可以得到 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2 的 1 − α 1-\alpha 1−α 置信区间为
x ˉ − y ˉ ± u 1 − α / 2 σ 1 2 m + σ 2 2 n \bar{x}-\bar{y} \pm u_{1-\alpha / 2} \sqrt{\frac{\sigma_1^2}{m}+\frac{\sigma_2^2}{n}} xˉ−yˉ±u1−α/2mσ12+nσ22 -
2. σ 1 2 = σ 2 2 = σ 2 \sigma_1^2=\sigma_2^2=\sigma^2 σ12=σ22=σ2 末知时此时有
x ˉ − y ˉ ∼ N ( μ 1 − μ 2 , ( 1 m + 1 n ) σ 2 ) , ( m − 1 ) s ; 2 + ( n − 1 ) s y 2 σ 2 ∼ χ 2 ( m + n − 2 ) , \begin{gathered} \bar{x}-\bar{y} \sim N\left(\mu_1-\mu_2,\left(\frac{1}{m}+\frac{1}{n}\right) \sigma^2\right), \\ \frac{(m-1) s_{;}^2+(n-1) s_y^2}{\sigma^2} \sim \chi^2(m+n-2), \end{gathered} xˉ−yˉ∼N(μ1−μ2,(m1+n1)σ2),σ2(m−1)s;2+(n−1)sy2∼χ2(m+n−2),
由于 x ˉ , y ˉ , s x 2 , s y 2 \bar{x}, \bar{y}, s_x^2, s_y^2 xˉ,yˉ,sx2,sy2 相互独立, 故可构造如下服从 t t t 分布 t ( m + n − 2 ) t(m+n-2) t(m+n−2) 的枢轴量
t = m n ( m + n − 2 ) m + n x ˉ − y ˉ − ( μ 1 − μ 2 ) ( m − 1 ) s x 2 + ( n − 1 ) s y 2 ∼ t ( m + n − 2 ) . t=\sqrt{\frac{m n(m+n-2)}{m+n}} \frac{\bar{x}-\bar{y}-\left(\mu_1-\mu_2\right)}{\sqrt{(m-1) s_x^2+(n-1) s_y^2}} \sim t(m+n-2) . t=m+nmn(m+n−2)(m−1)sx2+(n−1)sy2xˉ−yˉ−(μ1−μ2)∼t(m+n−2).
记 s w 2 = ( m − 1 ) s x 2 + ( n − 1 ) s y 2 m + n − 2 s_w^2=\frac{(m-1) s_x^2+(n-1) s_y^2}{m+n-2} sw2=m+n−2(m−1)sx2+(n−1)sy2, 则 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2 的置信区间为
x ˉ − y ˉ ± m + n m n s w t 1 − a / 2 ( m + n − 2 ) \bar{x}-\bar{y} \pm \sqrt{\frac{m+n}{m n}} s_w t_{1-a / 2}(m+n-2) xˉ−yˉ±mnm+nswt1−a/2(m+n−2) -
3. σ 2 2 / σ 1 2 = c \sigma_2^2 / \sigma_1^2=c σ22/σ12=c 已知时
此时的处理方法与 2 中完全类似, 只需注意到
记 s 2 = ( m − 1 ) s x 2 + ( n − 1 ) s y 2 / c m + n − 2 s^2=\frac{(m-1) s_x^2+(n-1) s_y^2 / c}{m+n-2} s2=m+n−2(m−1)sx2+(n−1)sy2/c, 则 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2 的 1 − α 1-\alpha 1−α 置信区间为
x ˉ − y ˉ ± m c + n m n s w t 1 − α / 2 ( m + n − 2 ) , \bar{x}-\bar{y} \pm \sqrt{\frac{m c+n}{m n}} s_w t_{1-\alpha / 2}(m+n-2), xˉ−yˉ±mnmc+nswt1−α/2(m+n−2), -
4. 当 m m m 和 n n n 都很大时的近似置信区间
若对 σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ12,σ22 没有什么信息, 当 m , n m, n m,n 都很大时, 由中心极限定理知
x ˉ − y ˉ − ( μ 1 − μ 2 ) s 2 m + s 2 n ∼ ˙ N ( 0 , 1 ) . \frac{\bar{x}-\bar{y}-\left(\mu_1-\mu_2\right)}{\sqrt{\frac{s^2}{m}+\frac{s^2}{n}}} \dot{\sim} N(0,1) . ms2+ns2xˉ−yˉ−(μ1−μ2)∼˙N(0,1).
由此可给出 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2 的 1 − α 1-\alpha 1−α 近似置信区间为
x ˉ − y ˉ ± u 1 − α / 2 s 2 m + s 2 n . \bar{x}-\bar{y} \pm u_{1-\alpha / 2} \sqrt{\frac{s^2}{m}+\frac{s^2}{n}} . xˉ−yˉ±u1−α/2ms2+ns2. -
5. 一般情况下的近似置信区间
若对 σ 1 2 , σ 2 2 \sigma_1^2, \sigma_2^2 σ12,σ22 没有什么信息, m , n m, n m,n 也不很大,求 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2 的精确置信区间, 这里介绍一种近似方法: 令 s 0 2 = s x 2 / m + s y 2 / n s_0^2=s_x^2 / m+s_y^2 / n s02=sx2/m+sy2/n, 取近似枢轴量
T = [ x ˉ − y ˉ − ( μ 1 − μ 2 ) ] / s 0 , T=\left[\bar{x}-\bar{y}-\left(\mu_1-\mu_2\right)\right] / s_0, T=[xˉ−yˉ−(μ1−μ2)]/s0,
此时 T T T 既不服从 N ( 0 , 1 ) N(0,1) N(0,1) 也不服从 t t t 分布. 但近似服从自由度为 l l l 的 t t t 分布, 其中 l l l 由公式
l = s 0 4 s x 4 m 2 ( m − 1 ) + s y 4 n 2 ( n − 1 ) l=\frac{s_0^4}{\frac{s_x^4}{m^2(m-1)}+\frac{s_y^4}{n^2(n-1)}} l=m2(m−1)sx4+n2(n−1)sy4s04
决定, l l l 一般不为整数, 可以取与 l l l 最接近的整数代替之. 于是, 近似地有 T ∼ T \sim T∼ t ( l ) t(l) t(l), 从而可得 μ 1 − μ 2 \mu_1-\mu_2 μ1−μ2 的 1- α \alpha α 近似置信区间为
x ˉ − y ˉ ± s 0 t 1 − a / 2 ( l ) . \bar{x}-\bar{y} \pm s_0 t_{1-a / 2}(l) \text {. } xˉ−yˉ±s0t1−a/2(l).
二、
σ
1
2
/
σ
2
2
\sigma_1^2 / \sigma_2^2
σ12/σ22 的置信区间
由于
(
m
−
1
)
s
x
2
/
σ
1
2
∼
χ
2
(
m
−
1
)
,
(
n
−
1
)
s
y
2
/
σ
2
2
∼
χ
2
(
n
−
1
)
(m-1) s_x^2 / \sigma_1^2 \sim \chi^2(m-1),(n-1) s_y^2 / \sigma_2^2 \sim \chi^2(n-1)
(m−1)sx2/σ12∼χ2(m−1),(n−1)sy2/σ22∼χ2(n−1), 且
s
x
2
s_x^2
sx2 与
s
y
2
s_y^2
sy2 相互独立, 故 可仿照
F
F
F 变量构造如下权轴量:
F
=
s
i
2
/
σ
1
2
s
y
2
/
σ
2
2
∼
F
(
m
−
1
,
n
−
1
)
,
F=\frac{s_i^2 / \sigma_1^2}{s_y^2 / \sigma_2^2} \sim F(m-1, n-1),
F=sy2/σ22si2/σ12∼F(m−1,n−1),
对给定的置信水平 1-
α
\alpha
α, 由
P
(
F
a
/
2
(
m
−
1
,
n
−
1
)
⩽
s
x
2
s
y
2
⋅
σ
2
2
σ
1
2
⩽
F
1
−
a
/
2
(
m
−
1
,
n
−
1
)
)
=
1
−
α
,
P\left(F_{a / 2}(m-1, n-1) \leqslant \frac{s_x^2}{s_y^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \leqslant F_{1-a/2}(m-1, n-1)\right)=1-\alpha,
P(Fa/2(m−1,n−1)⩽sy2sx2⋅σ12σ22⩽F1−a/2(m−1,n−1))=1−α,
经不等式变形即给出
σ
1
2
/
σ
2
2
\sigma_1^2 / \sigma_2^2
σ12/σ22 的如下的
1
−
α
1-\alpha
1−α 置信区间:
[
s
x
2
s
y
2
⋅
1
F
1
−
α
/
2
(
m
−
1
,
n
−
1
)
,
s
s
2
s
y
2
⋅
1
F
α
/
2
(
m
−
1
,
n
−
1
)
]
.
\left[\frac{s_x^2}{s_y^2} \cdot \frac{1}{F_{1-\alpha / 2}(m-1, n-1)}, \frac{s_s^2}{s_y^2} \cdot \frac{1}{F_{\alpha / 2}(m-1, n-1)}\right] .
[sy2sx2⋅F1−α/2(m−1,n−1)1,sy2ss2⋅Fα/2(m−1,n−1)1].