[持续学习] Fisher信息矩阵与EWC

最新推荐文章于 2025-04-13 16:14:23 发布

小声逼逼

最新推荐文章于 2025-04-13 16:14:23 发布

阅读量8.4k

点赞数 33

分类专栏：机器学习深度学习文章标签：数学深度学习

本文链接：https://blog.csdn.net/qqq_aaa_zzz1/article/details/116499351

版权

文章目录

一、前置知识
- 1. 得分函数 score / informant
- 2. Fisher信息矩阵
二、EWC
- 1. 数学推导
- 2. 如何计算 Fisher 信息矩阵

一、前置知识

1. 得分函数 score / informant

score / informant 定义为对数似然函数关于参数的梯度：

$s(\theta) \equiv \frac{\partial\log{\mathcal{L}(\theta)}}{\partial\theta}$

其中 $\mathcal{L}(\theta)$ 即为似然函数，可扩写为 $\mathcal{L}(\theta |x)$ ，其中 $x$ 为观测到的数据， $x$ 从采样域 $\mathcal{X}$ 中产生

在某一特定点的 $s$ 函数指明了该点处对数似然函数的陡峭程度（steepness），或者是函数值对参数发生无穷小量变化的敏感性。

如果对数似然函数定义在连续实数值的参数空间中，那么它的函数值将在（局部）极大值与极小值点消失。这一性质通常用于极大似然估计中（maximum likelihood estimation, MLE），来寻找使得似然函数值极大的参数值。

注意 $\mathcal{L}(\theta |x)$ 中竖线前后的字母 $\theta|x$ ， $x$ 为随机变量，在这里则是一个定值，意为采样后的观测值，而 $\theta$ 则为自变量，意为参数模型中的参数

当（假设） $\theta$ 位于正确值时，我们可以通过 $\theta$ 推导 $x$ ，也就是 $f(x|\theta)$ ，为一概率密度函数，意为当模型参数为 $\theta$ 时，采样到 $x$ 的概率

从两个角度得到了对同一事实的论证，因此可写作 $f(x|\theta) = \mathcal{L}(\theta | x)$

首先，来分析 $s$ 的数学期望，这里讨论的问题是：当参数取值为 $\theta$ 时， $s|\theta$ 的数学期望

从直观上分析，当参数位于真实（最佳）参数点时，似然函数有其极大值（考虑极大似然估计的定义），因此为一极值点，所以该点梯度为 $0$ ，即 $\mathbb{E}[s|\theta]= 0$

下面进行公式分析：

首先要明确，该期望是 $s$ 函数关于什么随机变量的期望。从上面的讨论中可以得到，该问题中唯一的随机变量是采样观测值 $x$ ，它的采样概率是 $f(x|\theta)$

注意：

$\begin{aligned} & f(x) \frac{\partial\log{f(x)}}{\partial{x}} \\ = & {f(x)} \frac{1}{f(x)} \frac{\partial{f(x)}}{\partial{x}} \\ = & \frac{\partial{f(x)}}{\partial{x}} \end{aligned}$

所以：

$\begin{aligned} \mathbb{E}[s|\theta] & = \int_{\mathcal{X}}f(x|\theta)\cdot{}s\cdot{}\mathrm{d}x \\ & = \int_{\mathcal{X}}f(x|\theta) \frac{\partial\log{\mathcal{L}(\theta|x)}}{\partial\theta} \mathrm{d}x \\ & = \int_{\mathcal{X}}f(x|\theta) \frac{\partial\log{f(x|\theta)}}{\partial\theta} \mathrm{d}x \\ & = \int_{\mathcal{X}} \frac{\partial f(x|\theta)}{\partial{\theta}} \mathrm{d}x \\ & = \frac{\partial}{\partial{x}} \int_{\mathcal{X}}f(x|\theta)\mathrm{d}x \\ & = \frac{\partial}{\partial{x}} 1 \\ & = 0\qquad\blacksquare \\ \end{aligned}$

因此得证： $\mathbb{E}[s|\theta]= 0$

2. Fisher信息矩阵

Fisher信息（Fisher information），或简称为信息（information）是一种衡量信息量的指标

假设我们想要建模一个随机变量 $x$ 的分布，用于建模的参数是 $\theta$ ，那么Fisher信息测量了 $x$ 携带的对于 $\theta$ 的信息量

所以，当我们固定 $\theta$ 值，以 $x$ 为自变量，Fisher 信息应当指出这一 $x$ 值可贡献给 $\theta$ 多少信息量

比如说，某一 $\theta$ 点附近的函数平面非常陡峭（有一极值峰值），那么我们不需要采样多少 $x$ 即可做出比较好的估计，也就是采样点 $x$ 的Fisher 信息量较高。反之，若某一 $\theta$ 附近的函数平面连续且平缓，那么我们需要采样很多点才能做出比较好的估计，也就是 Fisher 信息量较低。

从这一直观定义出发，我们可以联想到随机变量的方差，因此对于一个（假设的）真实参数 $\theta$ ， $s$ 函数的 Fisher 信息定义为 $s$ 函数的方差

$\begin{aligned} \mathcal{I} (\theta) & =\mathbb{E}\left[\left.\left({\frac {\partial }{\partial \theta }}\log f(x|\theta )\right)^{2}\right|\theta \right] \\ & = \int \left({\frac {\partial }{\partial \theta }}\log f(x|\theta )\right)^{2}f(x;\theta )\mathrm{d}x \end{aligned}$