Fisher信息量
Fisher信息量的定义在之前的博客中详细介绍了,定义是:
I
(
θ
)
=
−
E
θ
[
∂
2
f
(
x
;
θ
)
∂
θ
2
]
=
−
∫
x
∂
2
f
(
x
;
θ
)
∂
θ
2
f
(
x
;
θ
)
d
x
I(\theta)=-E_{\theta}[\frac{\partial ^2 f(x;\theta)}{\partial \theta^2}]=-\int_{x}\frac{\partial ^2f(x;\theta)}{\partial \theta^2}f(x;\theta)dx
I(θ)=−Eθ[∂θ2∂2f(x;θ)]=−∫x∂θ2∂2f(x;θ)f(x;θ)dx
最大似然估计量的渐进分布的方差由Fisher信息量的倒数给出:
θ
^
=
N
(
θ
,
1
I
(
θ
)
)
\hat{\theta}=N(\theta, \frac{1}{I(\theta)})
θ^=N(θ,I(θ)1)其中,
θ
\theta
θ是参数真值。由于真值不得而知,因此只能用plug-in形式的Fisher信息量:
I
(
θ
^
)
I(\hat{\theta})
I(θ^)
Fisher观测信息量
Fisher包括后来的一些统计学家如斯坦福的Efron认为Fisher观测信息比plug-in的Fisher信息量更加能够反映估计值
θ
^
\hat{\theta}
θ^的准确性。
观测Fisher信息定义为:
I
(
x
)
=
−
∂
2
f
(
x
;
θ
)
∂
θ
2
∣
θ
=
θ
^
I(x)=-\frac{\partial ^2 f(x;\theta)}{\partial \theta ^2}|_{\theta = \hat{\theta}}
I(x)=−∂θ2∂2f(x;θ)∣θ=θ^
这里自变量换成
x
x
x是因为利用数据获得了一个具体取值,也就是说
θ
^
=
g
(
x
)
\hat{\theta}=g(x)
θ^=g(x)这很好理解,首先求取似然函数负二阶导数,然后利用数据
x
x
x估计一个
θ
^
\hat{\theta}
θ^,然后带入到负二阶导数的表达式里面去。估计值的分布变成了
N
(
θ
,
1
I
(
x
)
)
N(\theta, \frac{1}{I(x)})
N(θ,I(x)1)