[持续学习] Fisher信息矩阵与EWC

一、前置知识

1. 得分函数 score / informant

score / informant 定义为对数似然函数关于参数的梯度:

s ( θ ) ≡ ∂ log ⁡ L ( θ ) ∂ θ s(\theta) \equiv \frac{\partial\log{\mathcal{L}(\theta)}}{\partial\theta} s(θ)θlogL(θ)

其中 L ( θ ) \mathcal{L}(\theta) L(θ)即为似然函数,可扩写为 L ( θ ∣ x ) \mathcal{L}(\theta |x) L(θx),其中 x x x为观测到的数据, x x x从采样域 X \mathcal{X} X中产生

在某一特定点的 s s s 函数指明了该点处对数似然函数的陡峭程度(steepness),或者是函数值对参数发生无穷小量变化的敏感性。

如果对数似然函数定义在连续实数值的参数空间中,那么它的函数值将在(局部)极大值与极小值点消失。这一性质通常用于极大似然估计中(maximum likelihood estimation, MLE),来寻找使得似然函数值极大的参数值。


注意 L ( θ ∣ x ) \mathcal{L}(\theta |x) L(θx)中竖线前后的字母 θ ∣ x \theta|x θx x x x为随机变量,在这里则是一个定值,意为采样后的观测值,而 θ \theta θ则为自变量,意为参数模型中的参数

当(假设 θ \theta θ位于正确值时,我们可以通过 θ \theta θ推导 x x x,也就是 f ( x ∣ θ ) f(x|\theta) f(xθ) ,为一概率密度函数,意为当模型参数为 θ \theta θ时,采样到 x x x的概率

从两个角度得到了对同一事实的论证,因此可写作 f ( x ∣ θ ) = L ( θ ∣ x ) f(x|\theta) = \mathcal{L}(\theta | x) f(xθ)=L(θx)


首先,来分析 s s s的数学期望,这里讨论的问题是:当参数取值为 θ \theta θ时, s ∣ θ s|\theta sθ的数学期望

从直观上分析,当参数位于真实最佳)参数点时,似然函数有其极大值(考虑极大似然估计的定义),因此为一极值点,所以该点梯度为 0 0 0,即 E [ s ∣ θ ] = 0 \mathbb{E}[s|\theta]= 0 E[sθ]=0

下面进行公式分析:

首先要明确,该期望是 s s s函数关于什么随机变量的期望。从上面的讨论中可以得到,该问题中唯一的随机变量是采样观测值 x x x,它的采样概率是 f ( x ∣ θ ) f(x|\theta) f(xθ)

注意:

f ( x ) ∂ log ⁡ f ( x ) ∂ x = f ( x ) 1 f ( x ) ∂ f ( x ) ∂ x = ∂ f ( x ) ∂ x \begin{aligned} & f(x) \frac{\partial\log{f(x)}}{\partial{x}} \\ = & {f(x)} \frac{1}{f(x)} \frac{\partial{f(x)}}{\partial{x}} \\ = & \frac{\partial{f(x)}}{\partial{x}} \end{aligned} ==f(x)xlogf(x)f(x)f(x)1xf(x)xf(x)

所以:

E [ s ∣ θ ] = ∫ X f ( x ∣ θ ) ⋅ s ⋅ d x = ∫ X f ( x ∣ θ ) ∂ log ⁡ L ( θ ∣ x ) ∂ θ d x = ∫ X f ( x ∣ θ ) ∂ log ⁡ f ( x ∣ θ ) ∂ θ d x = ∫ X ∂ f ( x ∣ θ ) ∂ θ d x = ∂ ∂ x ∫ X f ( x ∣ θ ) d x = ∂ ∂ x 1 = 0 ■ \begin{aligned} \mathbb{E}[s|\theta] & = \int_{\mathcal{X}}f(x|\theta)\cdot{}s\cdot{}\mathrm{d}x \\ & = \int_{\mathcal{X}}f(x|\theta) \frac{\partial\log{\mathcal{L}(\theta|x)}}{\partial\theta} \mathrm{d}x \\ & = \int_{\mathcal{X}}f(x|\theta) \frac{\partial\log{f(x|\theta)}}{\partial\theta} \mathrm{d}x \\ & = \int_{\mathcal{X}} \frac{\partial f(x|\theta)}{\partial{\theta}} \mathrm{d}x \\ & = \frac{\partial}{\partial{x}} \int_{\mathcal{X}}f(x|\theta)\mathrm{d}x \\ & = \frac{\partial}{\partial{x}} 1 \\ & = 0\qquad\blacksquare \\ \end{aligned} E[sθ]=Xf(xθ)sdx=Xf(xθ)θlogL(θx)dx=Xf(xθ)θlogf(xθ)dx=Xθf(xθ)dx=xXf(xθ)dx=x1=0

因此得证: E [ s ∣ θ ] = 0 \mathbb{E}[s|\theta]= 0 E[sθ]=0

2. Fisher信息矩阵

Fisher信息(Fisher information),或简称为信息(information)是一种衡量信息量的指标

假设我们想要建模一个随机变量 x x x 的分布,用于建模的参数是 θ \theta θ,那么Fisher信息测量了 x x x 携带的对于 θ \theta θ 的信息量

所以,当我们固定 θ \theta θ 值,以 x x x 为自变量,Fisher 信息应当指出这一 x x x 值可贡献给 θ \theta θ 多少信息量

比如说,某一 θ \theta θ 点附近的函数平面非常陡峭(有一极值峰值),那么我们不需要采样多少 x x x 即可做出比较好的估计,也就是采样点 x x x 的Fisher 信息量较高。反之,若某一 θ \theta θ 附近的函数平面连续且平缓,那么我们需要采样很多点才能做出比较好的估计,也就是 Fisher 信息量较低。

从这一直观定义出发,我们可以联想到随机变量的方差,因此对于一个(假设的)真实参数 θ \theta θ s s s 函数的 Fisher 信息定义为 s s s 函数的方差

I ( θ ) = E [ ( ∂ ∂ θ log ⁡ f ( x ∣ θ ) ) 2 ∣ θ ] = ∫ ( ∂ ∂ θ log ⁡ f ( x ∣ θ ) ) 2 f ( x ; θ ) d x \begin{aligned} \mathcal{I} (\theta) & =\mathbb{E}\left[\left.\left({\frac {\partial }{\partial \theta }}\log f(x|\theta )\right)^{2}\right|\theta \right] \\ & = \int \left({\frac {\partial }{\partial \theta }}\log f(x|\theta )\right)^{2}f(x;\theta )\mathrm{d}x \end{aligned} I(θ)=E[(θlogf(xθ))2θ]=(θlogf(xθ))2f(x;θ)dx

此外,如果 log ⁡ f ( x ∣ θ ) \log f(x|\theta) logf(xθ) 对于 θ \theta θ 二次可微,那么 Fisher 信息还可以写作

I ( θ ) = − E [ ∂ 2 ∂ 2 θ log ⁡ f ( x ∣ θ ) ∣ θ ] \mathcal{I}(\theta) = -\mathbb{E}\left[\left.{\frac {\partial^2}{\partial^2 \theta }}\log f(x|\theta )\right|\theta \right] I(θ)=E[2θ2logf(xθ)θ]

证明如下:

∵ 0 = E [ s ∣ θ ] ∴ 0 = ∂ ∂ θ E [ s ∣ θ ] = ∂ ∂ θ ∫ X f ( x ∣ θ ) ∂ log ⁡ L ( θ ∣ x ) ∂ θ d x = ∫ X ∂ ∂ θ ∂ log ⁡ L ( θ ∣ x ) ∂ θ f ( x ∣ θ )   d x ▹  use chain rule = ∫ X { ∂ 2 log ⁡ L ( θ ∣ x ) ∂ 2 θ f ( x ∣ θ ) + ∂ f ( x ∣ θ ) ∂ θ ∂ log ⁡ L ( θ ∣ x ) ∂ θ } d x = ∫ X ∂ 2 log ⁡ L ( θ ∣ x ) ∂ 2 θ f ( x ∣ θ ) d x ⏟ A + ∫ X ∂ L ( θ ∣ x ) ∂ θ ∂ log ⁡ L ( θ ∣ x ) ∂ θ d x ⏟ B A = E [ ∂ 2 log ⁡ L ( θ ∣ x ) ∂ 2 θ ∣ θ ] B = ∫ X ∂ L ( θ ∣ x ) ∂ θ ∂ log ⁡ L ( θ ∣ x ) ∂ θ d x = ∫ X ∂ log ⁡

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值