Learning Without Forgetting 笔记及实现

IFSB PRO Chu

已于 2022-03-14 20:23:10 修改

阅读量8.3k

点赞数 15

分类专栏： AI论文解读文章标签：深度学习机器学习神经网络迁移学习

于 2022-03-14 20:18:12 首次发布

本文链接：https://blog.csdn.net/juggle_gap_horse/article/details/123480492

版权

LWF是一种经典的持续学习方法，它通过知识蒸馏防止灾难性遗忘。文章介绍了LWF的基本原理，与其他方法的比较，算法流程，并提供了基于PyTorch的简单实现。LWF在不使用旧任务数据的情况下，通过旧网络指导的输出来平衡新任务的训练，以在新旧任务中取得良好性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Learning Without Forgetting

LWF简介

LWF是结合知识蒸馏(KD)避免灾难性遗忘的经典持续学习方法。本质上是通过旧网络指导的输出对在新任务训练的网络参数进行平衡，从而得到在新旧任务网络上都表现较好的性能。

方法对比

compare
a.从头开始训练
b.微调：在旧任务的网络基础上以较小的学习率学习新任务 ~~另一种意义上的initialization？~~
c.联合训练：使用所有任务的数据一起训练
d.特征提取：将旧任务的参数固定作为特征提取器，添加新的层训练新任务

LWF算法流程

algorithm
$\theta_s$ 为在old task上pretrained网络CNN的共享参数
$\theta_o$ 为每个old task的特定参数（可理解为网络的i最后的classifier head）
$X_n,Y_n)$ new task的数据

初始化：
1.将新数据 $X_n,Y_n)$ 输入在旧任务pretrained网络中得到一组respond $Y_o$
2.将new task对应的classifier head参数随机初始化（加快训练的常见手段）

训练：
$\hat{Y_o}$ 为待训练网络CNN 对应old task的输出，最开始 $\theta_o$ = $\hat{\theta_o}$ , $\theta_s$ = $\hat{\theta_s}$
$\hat{Y_n}$ 为待训练网络对应new task的输出，最开始 $\theta_n$ = $\hat{\theta_n}$ , $\theta_s$ = $\hat{\theta_s}$
优化目标为
$\theta_{s}^{*}, \theta_{o}^{*}, \theta_{n}^{*} \leftarrow \underset{\hat{\theta}_{s}, \hat{\theta}_{o}, \hat{\theta}_{n}}{\operatorname{argmin}}\left(\lambda_{o} \mathcal{L}_{o l d}\left(Y_{o}, \hat{Y}_{o}\right)+\mathcal{L}_{n e w}\left(Y_{n}, \hat{Y}_{n}\right)+\mathcal{R}\left(\hat{\theta}_{s}, \hat{\theta}_{o}, \hat{\theta}_{n}\right)\right)$

最低0.47元/天解锁文章