第三章 点估计(4)
1.Cramer-Rao不等式(C-R不等式)
C-R不等式是判别一个无偏估计量是否为UMVUE的方法之一,其思想是对于 g ( θ ) g(\theta) g(θ)的无偏估计类 U g \mathscr U_g Ug,里面的无偏估计有一个方差下界,如果能找到一个 g ^ \hat g g^的方差到达这个下界,这个 g ^ \hat g g^就是 g ( θ ) g(\theta) g(θ)的一个UMVUE。这个方差下界,就由C-R不等式取得。
要满足这个不等式,需要满足一定的条件——正则条件。对于单参数概率函数族 F = { f ( x , θ ) , θ ∈ Θ } \mathscr F=\{f(x,\theta),\theta\in\Theta\} F={f(x,θ),θ∈Θ},满足以下条件:
-
参数空间 Θ \Theta Θ是直线上的某个开区间;
-
对任何 x ∈ X x\in \mathscr X x∈X及 θ ∈ Θ \theta \in \Theta θ∈Θ, f ( x , θ ) > 0 f(x,\theta)>0 f(x,θ)>0,即分布族拥有共同的支撑;
-
对任何 x ∈ X x\in \mathscr X x∈X及 θ ∈ Θ \theta \in \Theta θ∈Θ, ∂ f ( x , θ ) ∂ θ \frac{\partial f(x,\theta)}{\partial\theta} ∂θ∂f(x,θ)存在;
-
概率函数 f ( x , θ ) f(x,\theta) f(x,θ)的积分与微分可交换,即
∂ ∂ θ ∫ f ( x , θ ) d x = ∫ ∂ ∂ θ f ( x , θ ) d x \frac{\partial }{\partial \theta}\int f(x,\theta)dx=\int \frac{\partial}{\partial\theta}f(x,\theta)dx ∂θ∂∫f(x,θ)dx=∫∂θ∂f(x,θ)dx
如果是离散随机变量的分布,则无穷级数与微分可交换。 -
Fisher信息量 I ( θ ) I(\theta) I(θ)存在,且 0 < I ( θ ) < ∞ 0<I(\theta)<\infty 0<I(θ)<∞,这里
I ( θ ) = E θ [ ∂ ln f ( x , θ ) ∂ θ ] 2 I(\theta)=E_\theta\left[\frac{\partial\ln f(x,\theta)}{\partial \theta}\right]^2 I(θ)=Eθ[∂θ∂lnf(x,θ)]2
满足以上五个条件的分布族被称为C-R正则分布族,这五个条件称为C-R正则条件。
对于满足C-R正则条件的分布族,
g
^
(
X
)
\hat g(X)
g^(X)是
g
(
θ
)
g(\theta)
g(θ)的任一无偏估计,且满足
∫
⋯
∫
g
^
(
x
)
f
(
x
,
θ
)
d
x
,
d
x
=
d
x
1
⋯
d
x
n
\int\cdots\int\hat g(\boldsymbol x)f(\boldsymbol x,\theta)d\boldsymbol x,d\boldsymbol x=dx_1\cdots dx_n
∫⋯∫g^(x)f(x,θ)dx,dx=dx1⋯dxn
可以在积分下对
θ
\theta
θ求导数,则有以下不等式(C-R不等式)成立:
D
θ
[
g
^
(
X
)
]
≥
(
g
′
(
θ
)
)
2
n
I
(
θ
)
,
∀
θ
∈
Θ
D_\theta[\hat g(\boldsymbol X)]\ge\frac{(g'(\theta))^2}{nI(\theta)},\forall \theta\in \Theta
Dθ[g^(X)]≥nI(θ)(g′(θ))2,∀θ∈Θ
特别当
g
(
θ
)
=
θ
g(\theta)=\theta
g(θ)=θ时,有
D
θ
[
g
^
(
X
)
]
≥
(
n
I
(
θ
)
)
−
1
D_\theta[\hat g(\boldsymbol X)]\ge (nI(\theta))^{-1}
Dθ[g^(X)]≥(nI(θ))−1。
对于一般的分布族,要验证是否符合1~5正则条件与积分号下可微的条件,比较麻烦;但对于指数族,上述六条性质都满足。
C-R不等式给出的C-R下界并不一定就是UMVUE的方差,有时候UMVUE是达不到这个C-R下界的。这种情况下只能说用C-R不等式不能判别。关于能否达到C-R下界(即能否使不等式的等号成立),有以下结论:
- 如果样本分布族不是指数族,则任何 g ( θ ) g(\theta) g(θ)的无偏估计,其方差不能处处达到C-R不等式中的下界。
- 即使分布族是指数族,也唯有在 g ( θ ) = E θ ( a T ( X ) + b ) g(\theta)=E_\theta(aT(\boldsymbol {X})+b) g(θ)=Eθ(aT(X)+b),即 g ^ ( X ) = a T ( X ) + b \hat g(\boldsymbol X)=aT(\boldsymbol{X})+b g^(X)=aT(X)+b的情形下,才能够让估计量处处达到C-R下界。这里 a , b a,b a,b与 X \boldsymbol X X无关,但可以是 θ \theta θ的函数。
2.Fisher信息函数
Fisher信息函数即C-R不等式中的
I
(
θ
)
=
E
θ
[
∂
ln
f
(
X
,
θ
)
∂
θ
]
2
I(\theta)=E_\theta\left[\frac{\partial \ln f(X,\theta)}{\partial \theta}\right]^2
I(θ)=Eθ[∂θ∂lnf(X,θ)]2
不妨令
g
(
θ
)
=
θ
g(\theta)=\theta
g(θ)=θ,并且其C-R下界可达到,则UMVUE的方差下界为
1
n
I
(
θ
)
\frac{1}{nI(\theta)}
nI(θ)1,如果
n
I
(
θ
)
nI(\theta)
nI(θ)越大,则说明
g
(
θ
)
g(\theta)
g(θ)可以估计得越精。
n n n作为样本容量,若以估计量方差的倒数作为精度的指标,则精度与样本容量成正比; I ( θ ) I(\theta) I(θ)则反映总体的性质,如果 I ( θ ) I(\theta) I(θ)越大,则意味着总体的参数越容易估计,总体模型本身提供的信息量越多,因此将 I ( θ ) I(\theta) I(θ)看作总体蕴含信息量的指标——信息函数。
整个样本中,每一个样本的地位是平等的,所以整个样本提供的信息量是 n I ( θ ) nI(\theta) nI(θ),此时信息量 I ( θ ) I(\theta) I(θ)也可以被看作单个样本提供的信息量。
在极大似然估计MLE的渐进正态相合性中,我们得到的结论是
n
(
θ
^
∗
−
θ
)
⟶
L
N
(
0
,
1
I
(
θ
)
)
即
θ
^
∗
⟶
L
N
(
θ
,
1
n
I
(
θ
)
)
\sqrt{n}(\hat \theta^*-\theta)\stackrel{\mathscr{L}}{\longrightarrow }N(0,\frac1{I(\theta)})\\ 即\hat\theta^*\stackrel{\mathscr L}{\longrightarrow}N(\theta,\frac1{nI(\theta)})
n(θ^∗−θ)⟶LN(0,I(θ)1)即θ^∗⟶LN(θ,nI(θ)1)
即样本的信息量
n
I
(
θ
)
nI(\theta)
nI(θ)是MLE方差的倒数,这表明
I
(
θ
)
I(\theta)
I(θ)越大,用MLE来估计
θ
\theta
θ就越精确。
3.多参数C-R不等式
矩阵的比较:设 A = ( a i j ) , B = ( b i j ) A=(a_{ij}),B=(b_{ij}) A=(aij),B=(bij)是同阶非负定矩阵,若 A − B A-B A−B是非负定的,则记作 A ≥ B A\ge B A≥B,此时必有 a i i ≥ b i i , ∀ i a_{ii}\ge b_{ii},\forall i aii≥bii,∀i。
现设
θ
=
(
θ
1
,
⋯
,
θ
k
)
\boldsymbol \theta=(\theta_1,\cdots,\theta_k)
θ=(θ1,⋯,θk),总体概率函数记作
f
(
x
,
θ
)
f(x,\boldsymbol \theta)
f(x,θ),
X
=
(
X
1
,
⋯
,
X
n
)
\boldsymbol X=(X_1,\cdots,X_n)
X=(X1,⋯,Xn)是总体中抽取的简单随机样本。设
θ
^
=
θ
^
(
X
)
=
(
θ
^
1
,
⋯
,
θ
^
k
)
\hat {\boldsymbol \theta}=\hat \theta(\boldsymbol X)=(\hat \theta_1,\cdots,\hat \theta_k)
θ^=θ^(X)=(θ^1,⋯,θ^k)是
θ
\boldsymbol \theta
θ的一个无偏估计,
C
o
v
θ
^
(
θ
^
)
Cov_{\boldsymbol {\hat {\theta}}}(\hat {\boldsymbol \theta})
Covθ^(θ^)为其协方差矩阵,它是一个
k
k
k阶非负定方阵,
(
i
,
j
)
(i,j)
(i,j)元为
E
θ
^
[
(
θ
^
i
−
θ
i
)
(
θ
^
j
−
θ
j
)
]
E_{\hat{\boldsymbol \theta}}[(\hat \theta_i-\theta_i)(\hat \theta_j - \theta_j)]
Eθ^[(θ^i−θi)(θ^j−θj)],则C-R不等式表现为
C
o
v
θ
^
(
θ
^
)
≥
(
n
I
(
θ
)
)
−
1
I
(
θ
)
=
(
I
i
j
(
θ
)
)
I
i
j
(
θ
)
=
E
θ
[
(
∂
ln
f
(
X
,
θ
)
∂
θ
i
)
(
∂
ln
f
(
X
,
θ
)
∂
θ
j
)
]
Cov_{\hat {\boldsymbol \theta}}(\hat {\boldsymbol \theta})\ge(n\boldsymbol I(\boldsymbol \theta))^{-1}\\ \boldsymbol I(\boldsymbol \theta)=(I_{ij}(\boldsymbol \theta))\\ I_{ij}(\boldsymbol \theta)=E_\boldsymbol \theta \left[ \left( \frac{\partial \ln f(\boldsymbol X,\boldsymbol \theta)}{\partial \theta_i} \right) \left( \frac{\partial \ln f(\boldsymbol X,\boldsymbol\theta)}{\partial \theta_j} \right) \right]
Covθ^(θ^)≥(nI(θ))−1I(θ)=(Iij(θ))Iij(θ)=Eθ[(∂θi∂lnf(X,θ))(∂θj∂lnf(X,θ))]
如果要判断其中每一个分量
θ
^
i
\hat \theta_i
θ^i的方差下界,则相对应地寻找
(
n
I
(
θ
)
)
−
1
(n\boldsymbol I(\boldsymbol \theta))^{-1}
(nI(θ))−1的第
(
i
,
i
)
(i,i)
(i,i)项,这就是
θ
^
i
\hat \theta_i
θ^i的方差C-R下界。
4.估计的效率
估计的效率指无偏估计方差达到C-R下界的程度,由于
D
(
g
^
(
X
)
)
≥
(
g
′
(
θ
)
)
2
n
I
(
θ
)
D(\hat g(X))\ge\frac{(g'(\theta))^2}{nI(\theta)}
D(g^(X))≥nI(θ)(g′(θ))2
因此控制效率在
(
0
,
1
]
(0,1]
(0,1]之间,记无偏估计
g
^
(
X
)
\hat g(X)
g^(X)的效率为
e
g
^
(
θ
)
=
(
g
′
(
θ
)
)
2
D
(
g
^
(
X
)
)
⋅
n
I
(
θ
)
e_{\hat g}(\theta)=\frac{(g'(\theta))^2}{D(\hat g(X))\cdot nI(\theta)}
eg^(θ)=D(g^(X))⋅nI(θ)(g′(θ))2
如果
e
g
^
(
θ
)
=
1
e_{\hat g}(\theta)=1
eg^(θ)=1,则称
g
^
(
X
)
\hat g(X)
g^(X)为
g
(
θ
)
g(\theta)
g(θ)的有效估计,显然有效估计一定是UMVUE,但反之却不一定。很多UMVUE不是有效估计,这是因为C-R下界偏小,在很多场合达不到;也有可能因为分布族不是指数族、不满足正则条件,引起C-R不等式不成立,此时C-R下界就没意义了。
如果随着样本容量的增加,估计效率趋近于1,即 lim n → ∞ e g ^ ( θ ) = 1 \lim \limits_{n\to \infty} e_{\hat g}(\theta)=1 n→∞limeg^(θ)=1,则称 g ^ ( X ) \hat g(X) g^(X)为 g ( θ ) g(\theta) g(θ)的渐进有效估计。