Continual Learning 经典方法：Memory Aware Synapses (MAS)

最新推荐文章于 2024-12-07 09:36:13 发布

JYZhang_sh

最新推荐文章于 2024-12-07 09:36:13 发布

阅读量4k

点赞数 1

分类专栏：医学图像处理机器学习深度学习文章标签：终身学习 MAS 灾难性遗忘

本文链接：https://blog.csdn.net/JYZhang_CVML/article/details/109472808

版权

机器学习同时被 3 个专栏收录

44 篇文章

订阅专栏

深度学习

33 篇文章

订阅专栏

医学图像处理

12 篇文章

订阅专栏

1. 顾名思义

Synapses 是神经元的突触，在人脑中负责连接不同神经元结构。Hebb’s rule 表示在脑生理学中，突触连接常常满足 “Fire Together, Wire Together”，即同时被激活或者同时失活。所以不同的任务对应潜在的不同突触——不同的记忆，因此选择激活或者改变某些神经元突触即可称为 Memory Aware Synapses (MAS)。在基于深度模型的终身学习任务中来说，可以通过计算网络中神经元的重要性，来选择保持重要的神经元在终身学习过程中相对不变，而不重要的神经元可以有相对灵活的变化。如下图所示：
在这里插入图片描述

2. 核心问题：如何计算重要性 Importance

2.1 Recap Elastic Weight Consolidation (EWC) and Synaptic Intelligence (SI)

EWC 和 SI 是比较经典的计算网络参数不同重要性的方法，具体来说：

EWC 通过估计 Fisher Information Matrix 的对角线值来计算参数重要性。
SI 估计损失函数对于参数的敏感性来计算参数重要性。

然而上述方法都是需要基于金标准计算损失函数->反向传播，由此带来对重要性计算的 overestimated，而且个人认为最重要的是，这样基于损失函数容易陷入局部最小值，导致梯度消失的 complications。

2.2 基于输出敏感性的参数重要性估计

为了解决上述问题，MAS 采用输出函数的敏感性来估算参数重要性。
在这里插入图片描述
考虑小的扰动 $\delta$ 对参数 $\theta$ ，导致了当前输出的改变 $F\left(x_{k} ; \theta+\delta\right)-F\left(x_{k} ; \theta\right) \approx \sum_{i, j} g_{i j}\left(x_{k}\right) \delta_{i j}$ 。其中 $g_{i j}\left(x_{k}\right)=\frac{\partial\left(F\left(x_{k} ; \theta\right)\right)}{\partial \theta_{i j}}$ 是当前网络输出对于参数 $\theta_{i,j}$ 的 $\delta_{i,j}$ 扰动，在采样数据点 $x_{i,j}$ 处的导数。梯度 $g_{i,j}$ 用来计算对应参数 $\theta_{i,j}$ 的重要性 $\Omega_{i j}$ —— 即很小的对参数的扰动能够造成模型输出改变。 $\Omega_{i j}=\frac{1}{N} \sum_{k=1}^{N}\left\|g_{i j}\left(x_{k}\right)\right\|$

2.3 用重要性估计对模型正则化

$L(\theta)=L_{n}(\theta)+\lambda \sum_{i, j} \Omega_{i j}\left(\theta_{i j}-\theta_{i j}^{*}\right)^{2}$
当学习新的任务时，不仅需要最小化当前任务的损失函数 $L_{n}(\theta)$ ，还需要根据参数重要性控制特定参数的变化——> 进而达到用之前的数据正则化当前任务的目的。