08.第三章 点估计(3)

第三章 点估计(3)

1.一致最小均方误差估计

均方误差MSE:均方误差值样本偏离参数实际值平方的大小,即 ( g ^ ( X ) − g ( θ ) ) 2 (\hat g(X)-g(\theta))^2 (g^(X)g(θ))2,它与偏差 g ^ ( X ) − g ( X ) \hat g(X)-g(X) g^(X)g(X)的区别是,可以消除偏差正负相互抵消的影响,也可以直接用数值大小判断优劣。显然我们希望估计量 g ^ ( X ) \hat g(X) g^(X)的均方误差越小越好。

如果对于任何 θ ∈ Θ \theta\in\Theta θΘ,都有 E θ ( g ^ 1 ( X ) − g ( θ ) ) 2 ≤ E θ ( g ^ 2 ( X ) − g ( θ ) ) 2 E_\theta(\hat g_1(X)-g(\theta))^2\le E_\theta(\hat g_2(X)-g(\theta))^2 Eθ(g^1(X)g(θ))2Eθ(g^2(X)g(θ))2,且至少存在一个 θ 0 \theta_0 θ0使得不等号成立,那么就说估计量 g ^ 1 ( X ) \hat g_1(X) g^1(X)在MSE意义下优于 g ^ 2 ( X ) \hat g_2(X) g^2(X);如果存在某个 g ^ ∗ ( X ) \hat g^*(X) g^(X)在MSE意义下优于一切其他估计量 g ^ ( X ) \hat g(X) g^(X),就说 g ^ ∗ ( X ) \hat g^*(X) g^(X)是参数 g ( θ ) g(\theta) g(θ)一致最小均方误差估计

可惜一致最小均方误差估计常常不存在,因此将参与比较的估计量缩小范围,在无偏估计类中寻找。此时
E θ ( g ^ ( X ) ) = g ( θ ) E θ ( g ^ ( X ) − g ( θ ) ) 2 = E θ ( [ g ^ ( X ) ] 2 + [ g ( θ ) ] 2 − 2 [ g ^ ( X ) g ( θ ) ] ) = E θ [ g ^ ( X ) ] 2 − ( E θ [ g ^ ( X ) ] ) 2 = D θ [ g ^ ( X ) ] E_\theta(\hat g(X))=g(\theta)\\ \begin{aligned} &E_\theta(\hat g(X)-g(\theta))^2\\ =&E_\theta([\hat g(X)]^2+[g(\theta)]^2-2[\hat g(X)g(\theta)])\\ =&E_\theta[\hat g(X)]^2-(E_\theta[\hat g(X)])^2\\ =&D_\theta[\hat g(X)] \end{aligned} Eθ(g^(X))=g(θ)===Eθ(g^(X)g(θ))2Eθ([g^(X)]2+[g(θ)]22[g^(X)g(θ)])Eθ[g^(X)]2(Eθ[g^(X)])2Dθ[g^(X)]
均方误差便成为了方差。只要参数的无偏估计存在,就可以找到这样的无偏估计类,而含有无偏估计的参数称为可估参数,含有无偏估计的参数函数便称为可估函数。

  • 有些参数函数就是不可估的,如二项分布 b ( n , p ) b(n,p) b(n,p)中, 1 / p 1/p 1/p没有无偏估计。

    假设存在这样一个估计量 g ( X ) g(X) g(X),由于二项分布可以取到的样本观测值 x x x至多可以为 { 0 , 1 , 2 , ⋯   , n } \{0,1,2,\cdots,n\} {0,1,2,,n},所以估计量 g ( X ) g(X) g(X)也至多只有 n + 1 n+1 n+1个观测值,记 g ( X = i ) = a i g(X=i)=a_i g(X=i)=ai,根据题意有
    ∑ i = 0 n C n i p i ( 1 − p ) n − i = 1 p ∑ i = 1 n C n i p i + 1 ( 1 − p ) n − i − 1 = 0 \sum_{i=0}^nC_n^ip^i(1-p)^{n-i}=\frac1p\\ \sum_{i=1}^nC_n^ip^{i+1}(1-p)^{n-i}-1=0 i=0nCnipi(1p)ni=p1i=1nCnipi+1(1p)ni1=0
    这是一个关于 p p p n + 1 n+1 n+1次方程,满足方程的根至多有 n + 1 n+1 n+1个,然而 p p p可以在 ( 0 , 1 ) (0,1) (0,1)中任意取值,因此这个方程不可能对任何 p p p成立,也就是说 E p ( g ( X ) ) = 1 / p E_p(g(X))=1/p Ep(g(X))=1/p不可能对所有 p p p存在,因此 1 / p 1/p 1/p没有无偏估计。

2.一致最小方差无偏估计

将一致最小MSE估计的估计类进行无偏的限制,就得到了一致最小方差无偏估计UMVUE的定义。

F = { f ( x , θ ) , θ ∈ Θ } \mathscr F=\{f(x,\theta),\theta\in\Theta\} F={f(x,θ),θΘ}是一个参数分布族, g ( θ ) g(\theta) g(θ)是定义在 Θ \Theta Θ上的可估函数,设 g ^ ∗ ( X ) = g ^ ∗ ( X 1 , ⋯   , X n ) \hat g^*(X)=\hat g^*(X_1,\cdots,X_n) g^(X)=g^(X1,,Xn) g ( θ ) g(\theta) g(θ)的一个无偏估计,如果对任何 g ( θ ) g(\theta) g(θ)的无偏估计 g ^ ( X ) \hat g(X) g^(X),都有 D θ ( g ^ ∗ ( X ) ) ≤ D θ ( g ^ ( X ) ) , ∀ θ ∈ Θ D_\theta(\hat g^*(X))\le D_\theta(\hat g(X)),\forall \theta \in\Theta Dθ(g^(X))Dθ(g^(X)),θΘ,则称 g ^ ∗ ( X ) \hat g^*(X) g^(X) g ( θ ) g(\theta) g(θ)的UMVUE。


在寻找UMVUE之前,有一个基于充分统计量的改进无偏估计的方法。设 T = T ( X ) T=T(X) T=T(X)是一个充分统计量, g ^ ( X ) \hat g(X) g^(X) g ( θ ) g(\theta) g(θ)的一个无偏估计,则 h ( T ) = E ( g ^ ( X ) ∣ T ) h(T)=E(\hat g(X)|T) h(T)=E(g^(X)T) g ( θ ) g(\theta) g(θ)的一致最小方差意义下更好的无偏估计。

首先证明 h ( T ) h(T) h(T)是一个统计量,由于 T T T是充分的,因此在给定 T T T X X X的条件分布与参数无关,所以 h ( T ) = E ( g ^ ( X ) ∣ T ) h(T)=E(\hat g(X)|T) h(T)=E(g^(X)T)首先是一个统计量,给定样本观测值就可以求出。且 E θ ( h ( T ) ) = E θ [ E ( g ^ ( X ) ∣ T ) ] = E ( g ^ ( X ) ) = g ( θ ) E_\theta(h(T))=E_\theta[E(\hat g(X)|T)]=E(\hat g(X))=g(\theta) Eθ(h(T))=Eθ[E(g^(X)T)]=E(g^(X))=g(θ)(条件期望),是无偏的。
D θ ( g ^ ( X ) ) = E θ { [ g ^ ( X ) − h ( T ) ] + [ h ( T ) − g ( θ ) ] } 2 = E θ [ g ^ ( X ) − h ( T ) ] 2 + E θ [ h ( T ) − g ( θ ) ] 2 + 2 E θ [ g ^ ( X ) − h ( T ) ] [ h ( T ) − g ( θ ) ] = E θ [ g ^ ( X ) − h ( T ) ] 2 + D θ ( h ( T ) ) + 2 E θ [ g ^ ( X ) − h ( T ) ] [ h ( T ) − g ( θ ) ] E θ [ g ^ ( X ) − h ( T ) ] [ h ( T ) − g ( θ ) ] = E θ { [ E θ [ g ^ ( X ) − h ( T ) ] [ h ( T ) − g ( θ ) ] } = E θ { [ h ( T ) − g ( θ ) ] E θ [ [ g ^ ( X ) − h ( T ) ] ∣ T ] } = E θ { [ h ( T ) − g ( θ ) ] E θ [ g ^ ( X ∣ T ) ] − h ( T ) } = 0 \begin{aligned} D_\theta(\hat g(X))=&E_\theta\{[\hat g(X)-h(T)]+[h(T)-g(\theta)]\}^2\\ =&E_\theta[\hat g(X)-h(T)]^2+E_\theta[h(T)-g(\theta)]^2+2E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ =&E_\theta[\hat g(X)-h(T)]^2+D_\theta(h(T))+2E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ \\ &E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\\ =&E_\theta\{[E_\theta[\hat g(X)-h(T)][h(T)-g(\theta)]\}\\ =&E_\theta\{[h(T)-g(\theta)]E_\theta[[\hat g(X)-h(T)]|T]\}\\ =&E_\theta\{[h(T)-g(\theta)]E_\theta[\hat g(X|T)]-h(T)\}\\ =&0 \end{aligned} Dθ(g^(X))=======Eθ{[g^(X)h(T)]+[h(T)g(θ)]}2Eθ[g^(X)h(T)]2+Eθ[h(T)g(θ)]2+2Eθ[g^(X)h(T)][h(T)g(θ)]Eθ[g^(X)h(T)]2+Dθ(h(T))+2Eθ[g^(X)h(T)][h(T)g(θ)]Eθ[g^(X)h(T)][h(T)g(θ)]Eθ{[Eθ[g^(X)h(T)][h(T)g(θ)]}Eθ{[h(T)g(θ)]Eθ[[g^(X)h(T)]T]}Eθ{[h(T)g(θ)]Eθ[g^(XT)]h(T)}0
所以有 D θ ( g ^ ( X ) ) = E θ [ g ^ ( X ) − h ( T ) ] 2 + D θ ( h ( T ) ) ≥ D θ ( h ( T ) ) D_\theta(\hat g(X))=E_\theta[\hat g(X)-h(T)]^2+D_\theta(h(T))\ge D_\theta(h(T)) Dθ(g^(X))=Eθ[g^(X)h(T)]2+Dθ(h(T))Dθ(h(T))

这个改进方法指出,如果原估计 g ^ ( X ) \hat g(X) g^(X)不是统计量 T T T的函数,则可以改进为方差更小的无偏估计量。因此,UMVUE一定是充分统计量的函数。但这样的改进是否是UMVUE仍不确定,因此需要寻找UMVUE的方法。

3.寻找UMVUE的方法

零无偏估计法是基于零无偏估计量的寻找方法,零无偏估计量即期望为0的统计量 l ( X ) , E θ l ( X ) = 0 , ∀ θ ∈ Θ l(X),E_\theta l(X)=0,\forall \theta\in\Theta l(X),Eθl(X)=0,θΘ。如果对于任何零无偏估计量 l ( X ) l(X) l(X),都有
C o v θ ( g ^ ( X ) , l ( X ) ) = E θ [ g ^ ( X ) ⋅ l ( X ) ] = 0 Cov_\theta(\hat g(X),l(X))=E_\theta[\hat g(X)\cdot l(X)]=0 Covθ(g^(X),l(X))=Eθ[g^(X)l(X)]=0
成立,则 g ^ ( X ) \hat g(X) g^(X) g ( θ ) g(\theta) g(θ)的UMVUE。即 E θ [ g ^ ( X ) , l ( X ) ] = 0 E_\theta[\hat g(X),l(X)]=0 Eθ[g^(X),l(X)]=0是UMVUE的充分条件,事实上也是必要条件。

假设还有其他的无偏估计 g ( X ) g(X) g(X),则 l ( X ) = g ( X ) − g ^ ( X ) l(X)=g(X)-\hat g(X) l(X)=g(X)g^(X)是一个零无偏估计量,那么
D θ ( g ( X ) ) = D θ ( g ^ ( X ) + l ( X ) ) = D θ ( g ^ ( X ) ) + D θ ( l ( X ) ) + 2 C o v θ ( g ^ ( X ) , l ( X ) ) = D θ ( g ^ ( X ) ) + D θ ( l ( X ) ) ≥ D θ ( g ^ ( X ) ) \begin{aligned} D_\theta(g(X))=&D_\theta(\hat g(X)+l(X))\\ =&D_\theta(\hat g(X))+D_\theta(l(X))+2Cov_\theta(\hat g(X),l(X))\\ =&D_\theta(\hat g(X))+D_\theta(l(X))\\ \ge &D_\theta(\hat g(X)) \end{aligned} Dθ(g(X))===Dθ(g^(X)+l(X))Dθ(g^(X))+Dθ(l(X))+2Covθ(g^(X),l(X))Dθ(g^(X))+Dθ(l(X))Dθ(g^(X))
说明 g ^ ( X ) \hat g(X) g^(X)就是UMVUE。

定理的内容并没有提及如何寻找这个 g ^ ( X ) \hat g(X) g^(X),只给了验证 g ^ ( X ) \hat g(X) g^(X)是UMVUE的方法,对于UMVUE的寻找需要用直观的想法提出,如通过矩估计或极大似然估计等方法获得一个估计量,再对其是否为UMVUE加以验证。

在实际应用中,由于UMVUE一定是充分统计量 T T T的函数,因此零无偏估计法还可以加以改动。如果 h ( T ( X ) ) h(T(X)) h(T(X)) g ( θ ) g(\theta) g(θ)的一个无偏估计, D θ ( h ( T ) ) < ∞ D_\theta(h(T))<\infty Dθ(h(T))<,如果对任何 E θ δ ( T ) = 0 , ∀ θ ∈ Θ E_\theta \delta(T)=0,\forall \theta \in\Theta Eθδ(T)=0,θΘ的统计量 δ ( T ) \delta(T) δ(T),都有 C o v θ ( h ( T ) , δ ( T ) ) = E θ [ h ( T ) δ ( T ) ] = 0 , ∀ θ ∈ Θ Cov_\theta(h(T),\delta(T))=E_\theta[h(T)\delta(T)]=0,\forall \theta \in\Theta Covθ(h(T),δ(T))=Eθ[h(T)δ(T)]=0,θΘ,则 h ( T ) h(T) h(T) g ( θ ) g(\theta) g(θ)的UMVUE。

对于零无偏估计的处理,如果是连续的,可以尝试将密度函数对参数求导;如果是离散的,可以尝试写出求和式。


零无偏估计量法适用于验证某一统计量是UMVUE,而充分完全统计量法则是求UMVUE的方法。

Lehmann-Scheff定理(L-S定理):设 X ∼ { f ( x , θ ) , θ ∈ Θ } X\sim \{f(x,\theta), \theta\in \Theta\} X{f(x,θ),θΘ} T ( X ) T(X) T(X)是一个充分完全统计量。如果 g ^ ( T ( X ) ) \hat g(T(X)) g^(T(X)) g ( θ ) g(\theta) g(θ)的一个无偏估计,则 g ^ ( T ( X ) ) \hat g(T(X)) g^(T(X)) g ( θ ) g(\theta) g(θ)唯一的UMVUE。这里的唯一,指仅存在一个概率为0的集合上有 g ^ ≠ g \hat g\ne g g^=g,就将 g , g ^ g,\hat g g,g^视为同一个统计量。

g ^ 1 ( T ( X ) ) \hat g_1(T(X)) g^1(T(X)) g ( θ ) g(\theta) g(θ)的任一无偏估计,令 δ ( T ( X ) ) = g ^ ( T ( X ) ) − g ^ 1 ( T ( X ) ) \delta(T(X))=\hat g(T(X))-\hat g_1(T(X)) δ(T(X))=g^(T(X))g^1(T(X)),则 E θ δ ( T ( X ) ) = 0 E_\theta\delta(T(X))=0 Eθδ(T(X))=0,因为 T ( X ) T(X) T(X)是完全统计量,所以 δ ( T ( X ) ) = 0 , a.s. P θ \delta(T(X))=0, \text{a.s.}P_\theta δ(T(X))=0,a.s.Pθ,即唯一。

现设 φ ( X ) \varphi(X) φ(X) g ( θ ) g(\theta) g(θ)的任一无偏估计,令 h ( T ( X ) ) = E [ φ ( X ) ∣ T ] h(T(X))=E[\varphi(X)|T] h(T(X))=E[φ(X)T],由于 T ( X ) T(X) T(X)是充分统计量,所以 h ( T ( X ) ) h(T(X)) h(T(X))与参数无关,是统计量。并且 h ( T ( X ) ) h(T(X)) h(T(X))是一个比 φ ( X ) \varphi(X) φ(X)更好的无偏估计。由唯一性就得到 g ^ ( T ( X ) ) = h ( E ( X ) )  a.e. P θ \hat g(T(X))=h(E(X)) \text{ a.e.}P_\theta g^(T(X))=h(E(X)) a.e.Pθ。这样就有
D θ ( g ^ ( T ( X ) ) ) = D θ ( h ( T ( X ) ) ≤ D θ ( φ ( X ) ) D_\theta(\hat g(T(X)))=D_\theta(h(T(X))\le D_\theta(\varphi(X)) Dθ(g^(T(X)))=Dθ(h(T(X))Dθ(φ(X))
说明 g ^ ( T ( X ) ) \hat g(T(X)) g^(T(X)) g ( θ ) g(\theta) g(θ)的UMVUE。

从正面过程也可以看出,利用充分完全统计量法求UMVUE,需要先找到一个无偏估计 φ ( X ) \varphi(X) φ(X)与一个充分完备统计量 T ( X ) T(X) T(X),再求 E θ [ φ ( X ) ∣ E ] E_\theta[\varphi(X)|E] Eθ[φ(X)E]

对于自然形式的指数族而言,样本的概率密度函数为
f ( x , θ ) = C ( θ ) exp { ∑ j = i k θ j T j ( x ) } h ( x ) , θ = ( θ 1 , ⋯   , θ k ) ∈ Θ ∗ f(\boldsymbol{x,\theta})=C(\boldsymbol {\theta})\text{exp}\left\{\sum_{j=i}^k\theta_jT_j(\boldsymbol x)\right\}h(\boldsymbol x),\boldsymbol \theta=(\theta_1,\cdots,\theta_k)\in\Theta^* f(x,θ)=C(θ)exp{j=ikθjTj(x)}h(x),θ=(θ1,,θk)Θ
T ( X ) = ( T 1 ( X ) , ⋯   , T k ( X ) ) T(\boldsymbol X)=(T_1(\boldsymbol X),\cdots,T_k(\boldsymbol X)) T(X)=(T1(X),,Tk(X))(这样 T T T是充分统计量),如果自然参数空间 Θ ∗ \Theta^* Θ作为 R k \mathbf R^k Rk的子集有内点(这样 T T T是完备统计量),且 h ( T ( X ) ) h(T(\boldsymbol X)) h(T(X)) g ( θ ) g(\theta) g(θ)的无偏估计,则 h ( T ( X ) ) h(T(\boldsymbol X)) h(T(X)) g ( θ ) g(\boldsymbol \theta) g(θ)的唯一UMVUE。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值