09.第三章 点估计(4)

第三章 点估计(4)

1.Cramer-Rao不等式(C-R不等式)

C-R不等式是判别一个无偏估计量是否为UMVUE的方法之一,其思想是对于 g ( θ ) g(\theta) g(θ)的无偏估计类 U g \mathscr U_g Ug,里面的无偏估计有一个方差下界,如果能找到一个 g ^ \hat g g^的方差到达这个下界,这个 g ^ \hat g g^就是 g ( θ ) g(\theta) g(θ)的一个UMVUE。这个方差下界,就由C-R不等式取得。

要满足这个不等式,需要满足一定的条件——正则条件。对于单参数概率函数族 F = { f ( x , θ ) , θ ∈ Θ } \mathscr F=\{f(x,\theta),\theta\in\Theta\} F={f(x,θ),θΘ},满足以下条件:

  1. 参数空间 Θ \Theta Θ是直线上的某个开区间

  2. 对任何 x ∈ X x\in \mathscr X xX θ ∈ Θ \theta \in \Theta θΘ f ( x , θ ) > 0 f(x,\theta)>0 f(x,θ)>0,即分布族拥有共同的支撑;

  3. 对任何 x ∈ X x\in \mathscr X xX θ ∈ Θ \theta \in \Theta θΘ ∂ f ( x , θ ) ∂ θ \frac{\partial f(x,\theta)}{\partial\theta} θf(x,θ)存在;

  4. 概率函数 f ( x , θ ) f(x,\theta) f(x,θ)的积分与微分可交换,即
    ∂ ∂ θ ∫ f ( x , θ ) d x = ∫ ∂ ∂ θ f ( x , θ ) d x \frac{\partial }{\partial \theta}\int f(x,\theta)dx=\int \frac{\partial}{\partial\theta}f(x,\theta)dx θf(x,θ)dx=θf(x,θ)dx
    如果是离散随机变量的分布,则无穷级数与微分可交换。

  5. Fisher信息量 I ( θ ) I(\theta) I(θ)存在,且 0 < I ( θ ) < ∞ 0<I(\theta)<\infty 0<I(θ)<,这里
    I ( θ ) = E θ [ ∂ ln ⁡ f ( x , θ ) ∂ θ ] 2 I(\theta)=E_\theta\left[\frac{\partial\ln f(x,\theta)}{\partial \theta}\right]^2 I(θ)=Eθ[θlnf(x,θ)]2

满足以上五个条件的分布族被称为C-R正则分布族,这五个条件称为C-R正则条件。

对于满足C-R正则条件的分布族, g ^ ( X ) \hat g(X) g^(X) g ( θ ) g(\theta) g(θ)的任一无偏估计,且满足
∫ ⋯ ∫ g ^ ( x ) f ( x , θ ) d x , d x = d x 1 ⋯ d x n \int\cdots\int\hat g(\boldsymbol x)f(\boldsymbol x,\theta)d\boldsymbol x,d\boldsymbol x=dx_1\cdots dx_n g^(x)f(x,θ)dx,dx=dx1dxn
可以在积分下对 θ \theta θ求导数,则有以下不等式(C-R不等式)成立:
D θ [ g ^ ( X ) ] ≥ ( g ′ ( θ ) ) 2 n I ( θ ) , ∀ θ ∈ Θ D_\theta[\hat g(\boldsymbol X)]\ge\frac{(g'(\theta))^2}{nI(\theta)},\forall \theta\in \Theta Dθ[g^(X)]nI(θ)(g(θ))2,θΘ
特别当 g ( θ ) = θ g(\theta)=\theta g(θ)=θ时,有 D θ [ g ^ ( X ) ] ≥ ( n I ( θ ) ) − 1 D_\theta[\hat g(\boldsymbol X)]\ge (nI(\theta))^{-1} Dθ[g^(X)](nI(θ))1

对于一般的分布族,要验证是否符合1~5正则条件与积分号下可微的条件,比较麻烦;但对于指数族,上述六条性质都满足。

C-R不等式给出的C-R下界并不一定就是UMVUE的方差,有时候UMVUE是达不到这个C-R下界的。这种情况下只能说用C-R不等式不能判别。关于能否达到C-R下界(即能否使不等式的等号成立),有以下结论:

  1. 如果样本分布族不是指数族,则任何 g ( θ ) g(\theta) g(θ)的无偏估计,其方差不能处处达到C-R不等式中的下界。
  2. 即使分布族是指数族,也唯有在 g ( θ ) = E θ ( a T ( X ) + b ) g(\theta)=E_\theta(aT(\boldsymbol {X})+b) g(θ)=Eθ(aT(X)+b),即 g ^ ( X ) = a T ( X ) + b \hat g(\boldsymbol X)=aT(\boldsymbol{X})+b g^(X)=aT(X)+b的情形下,才能够让估计量处处达到C-R下界。这里 a , b a,b a,b X \boldsymbol X X无关,但可以是 θ \theta θ的函数。

2.Fisher信息函数

Fisher信息函数即C-R不等式中的
I ( θ ) = E θ [ ∂ ln ⁡ f ( X , θ ) ∂ θ ] 2 I(\theta)=E_\theta\left[\frac{\partial \ln f(X,\theta)}{\partial \theta}\right]^2 I(θ)=Eθ[θlnf(X,θ)]2
不妨令 g ( θ ) = θ g(\theta)=\theta g(θ)=θ,并且其C-R下界可达到,则UMVUE的方差下界为 1 n I ( θ ) \frac{1}{nI(\theta)} nI(θ)1,如果 n I ( θ ) nI(\theta) nI(θ)越大,则说明 g ( θ ) g(\theta) g(θ)可以估计得越精。

n n n作为样本容量,若以估计量方差的倒数作为精度的指标,则精度与样本容量成正比; I ( θ ) I(\theta) I(θ)则反映总体的性质,如果 I ( θ ) I(\theta) I(θ)越大,则意味着总体的参数越容易估计,总体模型本身提供的信息量越多,因此将 I ( θ ) I(\theta) I(θ)看作总体蕴含信息量的指标——信息函数。

整个样本中,每一个样本的地位是平等的,所以整个样本提供的信息量是 n I ( θ ) nI(\theta) nI(θ),此时信息量 I ( θ ) I(\theta) I(θ)也可以被看作单个样本提供的信息量。

在极大似然估计MLE的渐进正态相合性中,我们得到的结论是
n ( θ ^ ∗ − θ ) ⟶ L N ( 0 , 1 I ( θ ) ) 即 θ ^ ∗ ⟶ L N ( θ , 1 n I ( θ ) ) \sqrt{n}(\hat \theta^*-\theta)\stackrel{\mathscr{L}}{\longrightarrow }N(0,\frac1{I(\theta)})\\ 即\hat\theta^*\stackrel{\mathscr L}{\longrightarrow}N(\theta,\frac1{nI(\theta)}) n (θ^θ)LN(0,I(θ)1)θ^LN(θ,nI(θ)1)
即样本的信息量 n I ( θ ) nI(\theta) nI(θ)是MLE方差的倒数,这表明 I ( θ ) I(\theta) I(θ)越大,用MLE来估计 θ \theta θ就越精确。

3.多参数C-R不等式

矩阵的比较:设 A = ( a i j ) , B = ( b i j ) A=(a_{ij}),B=(b_{ij}) A=(aij),B=(bij)是同阶非负定矩阵,若 A − B A-B AB是非负定的,则记作 A ≥ B A\ge B AB,此时必有 a i i ≥ b i i , ∀ i a_{ii}\ge b_{ii},\forall i aiibii,i

现设 θ = ( θ 1 , ⋯   , θ k ) \boldsymbol \theta=(\theta_1,\cdots,\theta_k) θ=(θ1,,θk),总体概率函数记作 f ( x , θ ) f(x,\boldsymbol \theta) f(x,θ) X = ( X 1 , ⋯   , X n ) \boldsymbol X=(X_1,\cdots,X_n) X=(X1,,Xn)是总体中抽取的简单随机样本。设 θ ^ = θ ^ ( X ) = ( θ ^ 1 , ⋯   , θ ^ k ) \hat {\boldsymbol \theta}=\hat \theta(\boldsymbol X)=(\hat \theta_1,\cdots,\hat \theta_k) θ^=θ^(X)=(θ^1,,θ^k) θ \boldsymbol \theta θ的一个无偏估计, C o v θ ^ ( θ ^ ) Cov_{\boldsymbol {\hat {\theta}}}(\hat {\boldsymbol \theta}) Covθ^(θ^)为其协方差矩阵,它是一个 k k k阶非负定方阵, ( i , j ) (i,j) (i,j)元为 E θ ^ [ ( θ ^ i − θ i ) ( θ ^ j − θ j ) ] E_{\hat{\boldsymbol \theta}}[(\hat \theta_i-\theta_i)(\hat \theta_j - \theta_j)] Eθ^[(θ^iθi)(θ^jθj)],则C-R不等式表现为
C o v θ ^ ( θ ^ ) ≥ ( n I ( θ ) ) − 1 I ( θ ) = ( I i j ( θ ) ) I i j ( θ ) = E θ [ ( ∂ ln ⁡ f ( X , θ ) ∂ θ i ) ( ∂ ln ⁡ f ( X , θ ) ∂ θ j ) ] Cov_{\hat {\boldsymbol \theta}}(\hat {\boldsymbol \theta})\ge(n\boldsymbol I(\boldsymbol \theta))^{-1}\\ \boldsymbol I(\boldsymbol \theta)=(I_{ij}(\boldsymbol \theta))\\ I_{ij}(\boldsymbol \theta)=E_\boldsymbol \theta \left[ \left( \frac{\partial \ln f(\boldsymbol X,\boldsymbol \theta)}{\partial \theta_i} \right) \left( \frac{\partial \ln f(\boldsymbol X,\boldsymbol\theta)}{\partial \theta_j} \right) \right] Covθ^(θ^)(nI(θ))1I(θ)=(Iij(θ))Iij(θ)=Eθ[(θilnf(X,θ))(θjlnf(X,θ))]
如果要判断其中每一个分量 θ ^ i \hat \theta_i θ^i的方差下界,则相对应地寻找 ( n I ( θ ) ) − 1 (n\boldsymbol I(\boldsymbol \theta))^{-1} (nI(θ))1的第 ( i , i ) (i,i) (i,i)项,这就是 θ ^ i \hat \theta_i θ^i的方差C-R下界。

4.估计的效率

估计的效率指无偏估计方差达到C-R下界的程度,由于
D ( g ^ ( X ) ) ≥ ( g ′ ( θ ) ) 2 n I ( θ ) D(\hat g(X))\ge\frac{(g'(\theta))^2}{nI(\theta)} D(g^(X))nI(θ)(g(θ))2
因此控制效率在 ( 0 , 1 ] (0,1] (0,1]之间,记无偏估计 g ^ ( X ) \hat g(X) g^(X)的效率为
e g ^ ( θ ) = ( g ′ ( θ ) ) 2 D ( g ^ ( X ) ) ⋅ n I ( θ ) e_{\hat g}(\theta)=\frac{(g'(\theta))^2}{D(\hat g(X))\cdot nI(\theta)} eg^(θ)=D(g^(X))nI(θ)(g(θ))2
如果 e g ^ ( θ ) = 1 e_{\hat g}(\theta)=1 eg^(θ)=1,则称 g ^ ( X ) \hat g(X) g^(X) g ( θ ) g(\theta) g(θ)的有效估计,显然有效估计一定是UMVUE,但反之却不一定。很多UMVUE不是有效估计,这是因为C-R下界偏小,在很多场合达不到;也有可能因为分布族不是指数族、不满足正则条件,引起C-R不等式不成立,此时C-R下界就没意义了。

如果随着样本容量的增加,估计效率趋近于1,即 lim ⁡ n → ∞ e g ^ ( θ ) = 1 \lim \limits_{n\to \infty} e_{\hat g}(\theta)=1 nlimeg^(θ)=1,则称 g ^ ( X ) \hat g(X) g^(X) g ( θ ) g(\theta) g(θ)的渐进有效估计。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值