一、前置知识
1. 得分函数 score / informant
score / informant 定义为对数似然函数关于参数的梯度:
s ( θ ) ≡ ∂ log L ( θ ) ∂ θ s(\theta) \equiv \frac{\partial\log{\mathcal{L}(\theta)}}{\partial\theta} s(θ)≡∂θ∂logL(θ)
其中 L ( θ ) \mathcal{L}(\theta) L(θ)即为似然函数,可扩写为 L ( θ ∣ x ) \mathcal{L}(\theta |x) L(θ∣x),其中 x x x为观测到的数据, x x x从采样域 X \mathcal{X} X中产生
在某一特定点的 s s s 函数指明了该点处对数似然函数的陡峭程度(steepness),或者是函数值对参数发生无穷小量变化的敏感性。
如果对数似然函数定义在连续实数值的参数空间中,那么它的函数值将在(局部)极大值与极小值点消失。这一性质通常用于极大似然估计中(maximum likelihood estimation, MLE),来寻找使得似然函数值极大的参数值。
注意 L ( θ ∣ x ) \mathcal{L}(\theta |x) L(θ∣x)中竖线前后的字母 θ ∣ x \theta|x θ∣x, x x x为随机变量,在这里则是一个定值,意为采样后的观测值,而 θ \theta θ则为自变量,意为参数模型中的参数
当(假设) θ \theta θ位于正确值时,我们可以通过 θ \theta θ推导 x x x,也就是 f ( x ∣ θ ) f(x|\theta) f(x∣θ) ,为一概率密度函数,意为当模型参数为 θ \theta θ时,采样到 x x x的概率
从两个角度得到了对同一事实的论证,因此可写作 f ( x ∣ θ ) = L ( θ ∣ x ) f(x|\theta) = \mathcal{L}(\theta | x) f(x∣θ)=L(θ∣x)
首先,来分析 s s s的数学期望,这里讨论的问题是:当参数取值为 θ \theta θ时, s ∣ θ s|\theta s∣θ的数学期望
从直观上分析,当参数位于真实(最佳)参数点时,似然函数有其极大值(考虑极大似然估计的定义),因此为一极值点,所以该点梯度为 0 0 0,即 E [ s ∣ θ ] = 0 \mathbb{E}[s|\theta]= 0 E[s∣θ]=0
下面进行公式分析:
首先要明确,该期望是 s s s函数关于什么随机变量的期望。从上面的讨论中可以得到,该问题中唯一的随机变量是采样观测值 x x x,它的采样概率是 f ( x ∣ θ ) f(x|\theta) f(x∣θ)
注意:
f ( x ) ∂ log f ( x ) ∂ x = f ( x ) 1 f ( x ) ∂ f ( x ) ∂ x = ∂ f ( x ) ∂ x \begin{aligned} & f(x) \frac{\partial\log{f(x)}}{\partial{x}} \\ = & {f(x)} \frac{1}{f(x)} \frac{\partial{f(x)}}{\partial{x}} \\ = & \frac{\partial{f(x)}}{\partial{x}} \end{aligned} ==f(x)∂x∂logf(x)f(x)f(x)1∂x∂f(x)∂x∂f(x)
所以:
E [ s ∣ θ ] = ∫ X f ( x ∣ θ ) ⋅ s ⋅ d x = ∫ X f ( x ∣ θ ) ∂ log L ( θ ∣ x ) ∂ θ d x = ∫ X f ( x ∣ θ ) ∂ log f ( x ∣ θ ) ∂ θ d x = ∫ X ∂ f ( x ∣ θ ) ∂ θ d x = ∂ ∂ x ∫ X f ( x ∣ θ ) d x = ∂ ∂ x 1 = 0 ■ \begin{aligned} \mathbb{E}[s|\theta] & = \int_{\mathcal{X}}f(x|\theta)\cdot{}s\cdot{}\mathrm{d}x \\ & = \int_{\mathcal{X}}f(x|\theta) \frac{\partial\log{\mathcal{L}(\theta|x)}}{\partial\theta} \mathrm{d}x \\ & = \int_{\mathcal{X}}f(x|\theta) \frac{\partial\log{f(x|\theta)}}{\partial\theta} \mathrm{d}x \\ & = \int_{\mathcal{X}} \frac{\partial f(x|\theta)}{\partial{\theta}} \mathrm{d}x \\ & = \frac{\partial}{\partial{x}} \int_{\mathcal{X}}f(x|\theta)\mathrm{d}x \\ & = \frac{\partial}{\partial{x}} 1 \\ & = 0\qquad\blacksquare \\ \end{aligned} E[s∣θ]=∫Xf(x∣θ)⋅s⋅dx=∫Xf(x∣θ)∂θ∂logL(θ∣x)dx=∫Xf(x∣θ)∂θ∂logf(x∣θ)dx=∫X∂θ∂f(x∣θ)dx=∂x∂∫Xf(x∣θ)dx=∂x∂1=0■
因此得证: E [ s ∣ θ ] = 0 \mathbb{E}[s|\theta]= 0 E[s∣θ]=0
2. Fisher信息矩阵
Fisher信息(Fisher information),或简称为信息(information)是一种衡量信息量的指标
假设我们想要建模一个随机变量 x x x 的分布,用于建模的参数是 θ \theta θ,那么Fisher信息测量了 x x x 携带的对于 θ \theta θ 的信息量
所以,当我们固定 θ \theta θ 值,以 x x x 为自变量,Fisher 信息应当指出这一 x x x 值可贡献给 θ \theta θ 多少信息量
比如说,某一 θ \theta θ 点附近的函数平面非常陡峭(有一极值峰值),那么我们不需要采样多少 x x x 即可做出比较好的估计,也就是采样点 x x x 的Fisher 信息量较高。反之,若某一 θ \theta θ 附近的函数平面连续且平缓,那么我们需要采样很多点才能做出比较好的估计,也就是 Fisher 信息量较低。
从这一直观定义出发,我们可以联想到随机变量的方差,因此对于一个(假设的)真实参数 θ \theta θ, s s s 函数的 Fisher 信息定义为 s s s 函数的方差
I ( θ ) = E [ ( ∂ ∂ θ log f ( x ∣ θ ) ) 2 ∣ θ ] = ∫ ( ∂ ∂ θ log f ( x ∣ θ ) ) 2 f ( x ; θ ) d x \begin{aligned} \mathcal{I} (\theta) & =\mathbb{E}\left[\left.\left({\frac {\partial }{\partial \theta }}\log f(x|\theta )\right)^{2}\right|\theta \right] \\ & = \int \left({\frac {\partial }{\partial \theta }}\log f(x|\theta )\right)^{2}f(x;\theta )\mathrm{d}x \end{aligned} I(θ)=E[(∂θ∂logf(x∣θ))2∣∣∣∣∣θ]=∫(∂θ∂logf(x∣θ))2f(x;θ)dx
此外,如果 log f ( x ∣ θ ) \log f(x|\theta) logf(x∣θ) 对于 θ \theta θ 二次可微,那么 Fisher 信息还可以写作
I ( θ ) = − E [ ∂ 2 ∂ 2 θ log f ( x ∣ θ ) ∣ θ ] \mathcal{I}(\theta) = -\mathbb{E}\left[\left.{\frac {\partial^2}{\partial^2 \theta }}\log f(x|\theta )\right|\theta \right] I(θ)=−E[∂2θ∂2logf(x∣θ)∣∣∣∣θ]
证明如下:
∵ 0 = E [ s ∣ θ ] ∴ 0 = ∂ ∂ θ E [ s ∣ θ ] = ∂ ∂ θ ∫ X f ( x ∣ θ ) ∂ log L ( θ ∣ x ) ∂ θ d x = ∫ X ∂ ∂ θ ∂ log L ( θ ∣ x ) ∂ θ f ( x ∣ θ ) d x ▹ use chain rule = ∫ X { ∂ 2 log L ( θ ∣ x ) ∂ 2 θ f ( x ∣ θ ) + ∂ f ( x ∣ θ ) ∂ θ ∂ log L ( θ ∣ x ) ∂ θ } d x = ∫ X ∂ 2 log L ( θ ∣ x ) ∂ 2 θ f ( x ∣ θ ) d x ⏟ A + ∫ X ∂ L ( θ ∣ x ) ∂ θ ∂ log L ( θ ∣ x ) ∂ θ d x ⏟ B A = E [ ∂ 2 log L ( θ ∣ x ) ∂ 2 θ ∣ θ ] B = ∫ X ∂ L ( θ ∣ x ) ∂ θ ∂ log L ( θ ∣ x ) ∂ θ d x = ∫ X ∂ log