读书笔记-增量学习-LwF_Learning without Forgetting

2017的经典论文,Learning without Forgetting(LwF)。在多篇论文中被用作实验比较的经典算法。作者认为Fine Tuning / Duplicating and Fine Tuning / Feature Extraction / Joint Training这几种基于修改参数的算法均存在性能或效率不高的问题。实验证明,作者提出的LwF算法可以克服上述算法的不足。

LwF实现增量学习的核心是对参数的更新方法,文章介绍并比较了几种经典增量学习的算法Fine Tuning / Duplicating and Fine Tuning / Feature Extraction / Joint Training。如图:

  • 以CNN模型为例,图中\theta _{s}代表卷积层和全连接层的共享参数,\theta _{o}代表先前学习的任务的特定参数,\theta _{n}代表新任务的特定参数。
  • (a)代表无增量学习能力的原始模型,所有的参数均不会更新。
  • (b)代表微调算法,在增量学习阶段,\theta _{o}不变,随机初始化\theta _{n},并在训练过程更新\theta _{s}\theta _{n}
  • (c)代表特征提取算法,在增量学习阶段,\theta _{o}\theta _{s}不变,\theta _{n}在旧任务提取的特征上进行训练并更新。
  • (d)代表联合训练算法,在增量学习阶段,联合优化\theta _{o}\theta _{s}\theta _{n}至收敛。
  • (e)代表作者提出的LwF算法,在增量学习阶段,先用\theta _{o}\theta _{s}训练\theta _{n}至收敛,再联合优化\theta _{o}\theta _{s}\theta _{n}至收敛。

LwF算法伪代码如下:

  • \theta _{s}代表卷积层和全连接层的共享参数,\theta _{o}代表先前学习的任务的特定参数,X_{n}Y_{n}代表新数据的值和标签。
  • 初始阶段:模型用旧的\theta _{s}\theta _{o}输出对新数据的预测Y_{o}。同时随机初始化代表新任务的特定参数\theta _{n}
  • 增量阶段是一个重复多次直至Loss函数最小的过程,期间使用\theta _{s}\theta _{o}输出{Y_{o}}',使用\theta _{s}\theta _{n}输出{Y_{n}}'Y_{o}{Y_{o}}'存在损失,Y_{n}{Y_{n}}'存在损失,调整三个参数直至损失函数收敛。

LwF与联合训练(Joint learning)的异同:

联合训练需要用到旧任务的数据和标签,而LwF使用新数据X_{n}和上一次模型的预测输出Y_{o}


实验中,增量数据采用不同的数据集,LwF对新类别数据的分类准确率较高且能克服旧类别数据灾难性遗忘问题。

  • 9
    点赞
  • 34
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

谷粤狐

如果能解决您的问题,请打赏哦

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值