第三章 点估计(3)
1.一致最小均方误差估计
均方误差MSE:均方误差值样本偏离参数实际值平方的大小,即 ( g ^ ( X ) − g ( θ ) ) 2 (\hat g(X)-g(\theta))^2 (g^(X)−g(θ))2,它与偏差 g ^ ( X ) − g ( X ) \hat g(X)-g(X) g^(X)−g(X)的区别是,可以消除偏差正负相互抵消的影响,也可以直接用数值大小判断优劣。显然我们希望估计量 g ^ ( X ) \hat g(X) g^(X)的均方误差越小越好。
如果对于任何 θ ∈ Θ \theta\in\Theta θ∈Θ,都有 E θ ( g ^ 1 ( X ) − g ( θ ) ) 2 ≤ E θ ( g ^ 2 ( X ) − g ( θ ) ) 2 E_\theta(\hat g_1(X)-g(\theta))^2\le E_\theta(\hat g_2(X)-g(\theta))^2 Eθ(g^1(X)−g(θ))2≤Eθ(g^2(X)−g(θ))2,且至少存在一个 θ 0 \theta_0 θ0使得不等号成立,那么就说估计量 g ^ 1 ( X ) \hat g_1(X) g^1(X)在MSE意义下优于 g ^ 2 ( X ) \hat g_2(X) g^2(X);如果存在某个 g ^ ∗ ( X ) \hat g^*(X) g^∗(X)在MSE意义下优于一切其他估计量 g ^ ( X ) \hat g(X) g^(X),就说 g ^ ∗ ( X ) \hat g^*(X) g^∗(X)是参数 g ( θ ) g(\theta) g(θ)的一致最小均方误差估计。
可惜一致最小均方误差估计常常不存在,因此将参与比较的估计量缩小范围,在无偏估计类中寻找。此时
E
θ
(
g
^
(
X
)
)
=
g
(
θ
)
E
θ
(
g
^
(
X
)
−
g
(
θ
)
)
2
=
E
θ
(
[
g
^
(
X
)
]
2
+
[
g
(
θ
)
]
2
−
2
[
g
^
(
X
)
g
(
θ
)
]
)
=
E
θ
[
g
^
(
X
)
]
2
−
(
E
θ
[
g
^
(
X
)
]
)
2
=
D
θ
[
g
^
(
X
)
]
E_\theta(\hat g(X))=g(\theta)\\ \begin{aligned} &E_\theta(\hat g(X)-g(\theta))^2\\ =&E_\theta([\hat g(X)]^2+[g(\theta)]^2-2[\hat g(X)g(\theta)])\\ =&E_\theta[\hat g(X)]^2-(E_\theta[\hat g(X)])^2\\ =&D_\theta[\hat g(X)] \end{aligned}
Eθ(g^(X))=g(θ)===Eθ(g^(X)−g(θ))2Eθ([g^(X)]2+[g(θ)]2−2[g^(X)g(θ)])Eθ[g^(X)]2−(Eθ[g^(X)])2Dθ[g^(X)]
均方误差便成为了方差。只要参数的无偏估计存在,就可以找到这样的无偏估计类,而含有无偏估计的参数称为可估参数,含有无偏估计的参数函数便称为可估函数。
-
有些参数函数就是不可估的,如二项分布 b ( n , p ) b(n,p) b(n,p)中, 1 / p 1/p 1/p没有无偏估计。
假设存在这样一个估计量 g ( X ) g(X) g(X),由于二项分布可以取到的样本观测值 x x x至多可以为 { 0 , 1 , 2 , ⋯ , n } \{0,1,2,\cdots,n\} {0,1,2,⋯,n},所以估计量 g ( X ) g(X) g(X)也至多只有 n + 1 n+1 n+1个观测值,记 g ( X = i ) = a i g(X=i)=a_i g(X=i)=ai,根据题意有
∑ i = 0 n C n i p i ( 1 − p ) n − i = 1 p ∑ i = 1 n C n i p i + 1 ( 1 − p ) n − i − 1 = 0 \sum_{i=0}^nC_n^ip^i(1-p)^{n-i}=\frac1p\\ \sum_{i=1}^nC_n^ip^{i+1}(1-p)^{n-i}-1=0 i=0∑nCnipi(1−p)n−i=p1i=1∑nCnipi+1(1−p)n−i−1=0
这是一个关于 p p p的 n + 1 n+1 n+1次方程,满足方程的根至多有 n + 1 n+1 n+1个,然而 p p p可以在 ( 0 , 1 ) (0,1) (0,1)中任意取值,因此这个方程不可能对任何 p p p成立,也就是说 E p ( g ( X ) ) = 1 / p E_p(g(X))=1/p Ep(g(X))=1/p不可能对所有 p p p存在,因此 1 / p 1/p 1/p没有无偏估计。
2.一致最小方差无偏估计
将一致最小MSE估计的估计类进行无偏的限制,就得到了一致最小方差无偏估计UMVUE的定义。
设 F = { f ( x , θ ) , θ ∈ Θ } \mathscr F=\{f(x,\theta),\theta\in\Theta\} F={f(x,θ),θ∈Θ}是一个参数分布族, g ( θ ) g(\theta) g(θ)是定义在 Θ \Theta Θ上的可估函数,设 g ^ ∗ ( X ) = g ^ ∗ ( X 1 , ⋯ , X n ) \hat g^*(X)=\hat g^*(X_1,\cdots,X_n) g^∗(X)=g^∗(X1,⋯,Xn)是 g ( θ ) g(\theta) g(θ)的一个无偏估计,如果对任何 g ( θ ) g(\theta) g(θ)的无偏估计 g ^ ( X ) \hat g(X) g^(X),都有 D θ ( g ^ ∗ ( X ) ) ≤ D θ ( g ^ ( X ) ) , ∀ θ ∈ Θ D_\theta(\hat g^*(X))\le D_\theta(\hat g(X)),\forall \theta \in\Theta Dθ(g^∗(X))≤Dθ(g^(X)),∀θ∈Θ,则称 g ^ ∗ ( X ) \hat g^*(X) g^∗(X)是 g ( θ ) g(\theta) g(θ)的UMVUE。
在寻找UMVUE之前,有一个基于充分统计量的改进无偏估计的方法。设 T = T ( X ) T=T(X) T=T(X)是一个充分统计量, g ^ ( X ) \hat g(X) g^(X)是 g ( θ ) g(\theta) g(θ)的一个无偏估计,则 h ( T ) = E ( g ^ ( X ) ∣ T ) h(T)=E(\hat g(X)|T) h(T)=E(g^(X)∣T)是 g ( θ ) g(\theta) g(θ)的一致最小方差意义下更好的无偏估计。
首先证明
h
(
T
)
h(T)
h(T)是一个统计量,由于
T
T
T是充分的,因此在给定
T
T
T时
X
X
X的条件分布与参数无关,所以
h
(
T
)
=
E
(
g
^
(
X
)
∣
T
)
h(T)=E(\hat g(X)|T)
h(T)=E(g^(X)∣T)首先是一个统计量,给定样本观测值就可以求出。且
E
θ
(
h
(
T
)
)
=
E
θ
[
E
(
g
^
(
X
)
∣
T
)
]
=
E
(
g
^
(
X
)
)
=
g
(
θ
)
E_\theta(h(T))=E_\theta[E(\hat g(X)|T)]=E(\hat g(X))=g(\theta)
Eθ(h(T))=Eθ[E(g^(X)∣T)]=E(g^(X))=g(θ)(条件期望),是无偏的。
D
θ
(
g
^
(
X
)
)
=
E
θ
{
[
g
^
(
X
)
−
h
(
T
)
]
+
[
h
(
T
)
−
g
(
θ
)
]
}
2
=
E
θ
[
g
^
(
X
)
−
h
(
T
)
]
2
+
E
θ
[
h
(
T
)
−
g
(
θ
)
]
2
+
2
E
θ
[
g
^
(
X
)
−
h
(
T
)
]
[
h
(
T
)
−
g
(
θ
)
]
=
E
θ
[
g
^
(
X
)
−
h
(
T
)
]
2
+
D
θ
(
h
(
T
)
)
+
2
E
θ
[
g
^
(
X
)
−
h
(
T
)
]
[
h
(
T
)
−
g
(
θ
)
]
E
θ
[
g
^
(
X
)
−
h
(
T
)
]
[
h
(
T
)
−
g
(
θ
)
]
=
E
θ
{
[
E
θ
[
g
^
(
X
)
−
h
(
T
)
]
[
h
(
T
)
−
g
(
θ
)
]
}
=
E
θ
{
[
h
(
T
)
−
g
(
θ
)
]
E
θ
[
[
g
^
(
X
)
−
h
(
T
)
]
∣
T
]
}
=
E
θ
{
[
h
(
T
)
−
g
(
θ
)
]
E
θ
[
g
^
(
X
∣
T
)
]
−
h
(
T
)
}
=
0
\begin{aligned} D_\theta(\hat g(X))=&E_\theta\{[\hat g(X)-h(T)]+[h(T)-g(\theta)]\}^2\\ =&E_\theta[\hat g(X)-h(T)]^2+E_\theta[h(T)-g(\theta)]^2+2E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ =&E_\theta[\hat g(X)-h(T)]^2+D_\theta(h(T))+2E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ \\ &E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ =&E_\theta\{[E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\}\\ =&E_\theta\{[h(T)-g(\theta)]E_\theta[[\hat g(X)-h(T)]|T]\}\\ =&E_\theta\{[h(T)-g(\theta)]E_\theta[\hat g(X|T)]-h(T)\}\\ =&0 \end{aligned}
Dθ(g^(X))=======Eθ{[g^(X)−h(T)]+[h(T)−g(θ)]}2Eθ[g^(X)−h(T)]2+Eθ[h(T)−g(θ)]2+2Eθ[g^(X)−h(T)][h(T)−g(θ)]Eθ[g^(X)−h(T)]2+Dθ(h(T))+2Eθ[g^(X)−h(T)][h(T)−g(θ)]Eθ[g^(X)−h(T)][h(T)−g(θ)]Eθ{[Eθ[g^(X)−h(T)][h(T)−g(θ)]}Eθ{[h(T)−g(θ)]Eθ[[g^(X)−h(T)]∣T]}Eθ{[h(T)−g(θ)]Eθ[g^(X∣T)]−h(T)}0
所以有
D
θ
(
g
^
(
X
)
)
=
E
θ
[
g
^
(
X
)
−
h
(
T
)
]
2
+
D
θ
(
h
(
T
)
)
≥
D
θ
(
h
(
T
)
)
D_\theta(\hat g(X))=E_\theta[\hat g(X)-h(T)]^2+D_\theta(h(T))\ge D_\theta(h(T))
Dθ(g^(X))=Eθ[g^(X)−h(T)]2+Dθ(h(T))≥Dθ(h(T))。
这个改进方法指出,如果原估计 g ^ ( X ) \hat g(X) g^(X)不是统计量 T T T的函数,则可以改进为方差更小的无偏估计量。因此,UMVUE一定是充分统计量的函数。但这样的改进是否是UMVUE仍不确定,因此需要寻找UMVUE的方法。
3.寻找UMVUE的方法
零无偏估计法是基于零无偏估计量的寻找方法,零无偏估计量即期望为0的统计量
l
(
X
)
,
E
θ
l
(
X
)
=
0
,
∀
θ
∈
Θ
l(X),E_\theta l(X)=0,\forall \theta\in\Theta
l(X),Eθl(X)=0,∀θ∈Θ。如果对于任何零无偏估计量
l
(
X
)
l(X)
l(X),都有
C
o
v
θ
(
g
^
(
X
)
,
l
(
X
)
)
=
E
θ
[
g
^
(
X
)
⋅
l
(
X
)
]
=
0
Cov_\theta(\hat g(X),l(X))=E_\theta[\hat g(X)\cdot l(X)]=0
Covθ(g^(X),l(X))=Eθ[g^(X)⋅l(X)]=0
成立,则
g
^
(
X
)
\hat g(X)
g^(X)是
g
(
θ
)
g(\theta)
g(θ)的UMVUE。即
E
θ
[
g
^
(
X
)
,
l
(
X
)
]
=
0
E_\theta[\hat g(X),l(X)]=0
Eθ[g^(X),l(X)]=0是UMVUE的充分条件,事实上也是必要条件。
假设还有其他的无偏估计
g
(
X
)
g(X)
g(X),则
l
(
X
)
=
g
(
X
)
−
g
^
(
X
)
l(X)=g(X)-\hat g(X)
l(X)=g(X)−g^(X)是一个零无偏估计量,那么
D
θ
(
g
(
X
)
)
=
D
θ
(
g
^
(
X
)
+
l
(
X
)
)
=
D
θ
(
g
^
(
X
)
)
+
D
θ
(
l
(
X
)
)
+
2
C
o
v
θ
(
g
^
(
X
)
,
l
(
X
)
)
=
D
θ
(
g
^
(
X
)
)
+
D
θ
(
l
(
X
)
)
≥
D
θ
(
g
^
(
X
)
)
\begin{aligned} D_\theta(g(X))=&D_\theta(\hat g(X)+l(X))\\ =&D_\theta(\hat g(X))+D_\theta(l(X))+2Cov_\theta(\hat g(X),l(X))\\ =&D_\theta(\hat g(X))+D_\theta(l(X))\\ \ge &D_\theta(\hat g(X)) \end{aligned}
Dθ(g(X))===≥Dθ(g^(X)+l(X))Dθ(g^(X))+Dθ(l(X))+2Covθ(g^(X),l(X))Dθ(g^(X))+Dθ(l(X))Dθ(g^(X))
说明
g
^
(
X
)
\hat g(X)
g^(X)就是UMVUE。
定理的内容并没有提及如何寻找这个 g ^ ( X ) \hat g(X) g^(X),只给了验证 g ^ ( X ) \hat g(X) g^(X)是UMVUE的方法,对于UMVUE的寻找需要用直观的想法提出,如通过矩估计或极大似然估计等方法获得一个估计量,再对其是否为UMVUE加以验证。
在实际应用中,由于UMVUE一定是充分统计量 T T T的函数,因此零无偏估计法还可以加以改动。如果 h ( T ( X ) ) h(T(X)) h(T(X))是 g ( θ ) g(\theta) g(θ)的一个无偏估计, D θ ( h ( T ) ) < ∞ D_\theta(h(T))<\infty Dθ(h(T))<∞,如果对任何 E θ δ ( T ) = 0 , ∀ θ ∈ Θ E_\theta \delta(T)=0,\forall \theta \in\Theta Eθδ(T)=0,∀θ∈Θ的统计量 δ ( T ) \delta(T) δ(T),都有 C o v θ ( h ( T ) , δ ( T ) ) = E θ [ h ( T ) δ ( T ) ] = 0 , ∀ θ ∈ Θ Cov_\theta(h(T),\delta(T))=E_\theta[h(T)\delta(T)]=0,\forall \theta \in\Theta Covθ(h(T),δ(T))=Eθ[h(T)δ(T)]=0,∀θ∈Θ,则 h ( T ) h(T) h(T)是 g ( θ ) g(\theta) g(θ)的UMVUE。
对于零无偏估计的处理,如果是连续的,可以尝试将密度函数对参数求导;如果是离散的,可以尝试写出求和式。
零无偏估计量法适用于验证某一统计量是UMVUE,而充分完全统计量法则是求UMVUE的方法。
Lehmann-Scheff定理(L-S定理):设 X ∼ { f ( x , θ ) , θ ∈ Θ } X\sim \{f(x,\theta), \theta\in \Theta\} X∼{f(x,θ),θ∈Θ}, T ( X ) T(X) T(X)是一个充分完全统计量。如果 g ^ ( T ( X ) ) \hat g(T(X)) g^(T(X))是 g ( θ ) g(\theta) g(θ)的一个无偏估计,则 g ^ ( T ( X ) ) \hat g(T(X)) g^(T(X))是 g ( θ ) g(\theta) g(θ)唯一的UMVUE。这里的唯一,指仅存在一个概率为0的集合上有 g ^ ≠ g \hat g\ne g g^=g,就将 g , g ^ g,\hat g g,g^视为同一个统计量。
设 g ^ 1 ( T ( X ) ) \hat g_1(T(X)) g^1(T(X))是 g ( θ ) g(\theta) g(θ)的任一无偏估计,令 δ ( T ( X ) ) = g ^ ( T ( X ) ) − g ^ 1 ( T ( X ) ) \delta(T(X))=\hat g(T(X))-\hat g_1(T(X)) δ(T(X))=g^(T(X))−g^1(T(X)),则 E θ δ ( T ( X ) ) = 0 E_\theta\delta(T(X))=0 Eθδ(T(X))=0,因为 T ( X ) T(X) T(X)是完全统计量,所以 δ ( T ( X ) ) = 0 , a.s. P θ \delta(T(X))=0, \text{a.s.}P_\theta δ(T(X))=0,a.s.Pθ,即唯一。
现设
φ
(
X
)
\varphi(X)
φ(X)是
g
(
θ
)
g(\theta)
g(θ)的任一无偏估计,令
h
(
T
(
X
)
)
=
E
[
φ
(
X
)
∣
T
]
h(T(X))=E[\varphi(X)|T]
h(T(X))=E[φ(X)∣T],由于
T
(
X
)
T(X)
T(X)是充分统计量,所以
h
(
T
(
X
)
)
h(T(X))
h(T(X))与参数无关,是统计量。并且
h
(
T
(
X
)
)
h(T(X))
h(T(X))是一个比
φ
(
X
)
\varphi(X)
φ(X)更好的无偏估计。由唯一性就得到
g
^
(
T
(
X
)
)
=
h
(
E
(
X
)
)
a.e.
P
θ
\hat g(T(X))=h(E(X)) \text{ a.e.}P_\theta
g^(T(X))=h(E(X)) a.e.Pθ。这样就有
D
θ
(
g
^
(
T
(
X
)
)
)
=
D
θ
(
h
(
T
(
X
)
)
≤
D
θ
(
φ
(
X
)
)
D_\theta(\hat g(T(X)))=D_\theta(h(T(X))\le D_\theta(\varphi(X))
Dθ(g^(T(X)))=Dθ(h(T(X))≤Dθ(φ(X))
说明
g
^
(
T
(
X
)
)
\hat g(T(X))
g^(T(X))是
g
(
θ
)
g(\theta)
g(θ)的UMVUE。
从正面过程也可以看出,利用充分完全统计量法求UMVUE,需要先找到一个无偏估计 φ ( X ) \varphi(X) φ(X)与一个充分完备统计量 T ( X ) T(X) T(X),再求 E θ [ φ ( X ) ∣ E ] E_\theta[\varphi(X)|E] Eθ[φ(X)∣E]。
对于自然形式的指数族而言,样本的概率密度函数为
f
(
x
,
θ
)
=
C
(
θ
)
exp
{
∑
j
=
i
k
θ
j
T
j
(
x
)
}
h
(
x
)
,
θ
=
(
θ
1
,
⋯
,
θ
k
)
∈
Θ
∗
f(\boldsymbol{x,\theta})=C(\boldsymbol {\theta})\text{exp}\left\{\sum_{j=i}^k\theta_jT_j(\boldsymbol x)\right\}h(\boldsymbol x),\boldsymbol \theta=(\theta_1,\cdots,\theta_k)\in\Theta^*
f(x,θ)=C(θ)exp{j=i∑kθjTj(x)}h(x),θ=(θ1,⋯,θk)∈Θ∗
令
T
(
X
)
=
(
T
1
(
X
)
,
⋯
,
T
k
(
X
)
)
T(\boldsymbol X)=(T_1(\boldsymbol X),\cdots,T_k(\boldsymbol X))
T(X)=(T1(X),⋯,Tk(X))(这样
T
T
T是充分统计量),如果自然参数空间
Θ
∗
\Theta^*
Θ∗作为
R
k
\mathbf R^k
Rk的子集有内点(这样
T
T
T是完备统计量),且
h
(
T
(
X
)
)
h(T(\boldsymbol X))
h(T(X))为
g
(
θ
)
g(\theta)
g(θ)的无偏估计,则
h
(
T
(
X
)
)
h(T(\boldsymbol X))
h(T(X))是
g
(
θ
)
g(\boldsymbol \theta)
g(θ)的唯一UMVUE。