论文学习记录

Curriculum Learning by Optimizing Learning Dynamics(2021)

Zhou T, Wang S, Bilmes J. Curriculum learning by optimizing learning dynamics[C]//International Conference on Artificial Intelligence and Statistics. PMLR, 2021: 433-441.

提出了一个DoCL(dynamics-optimized curriculum learning)框架,每轮训练选择进步最大和学习速度最快的样本(其实就是损失较大但学习速度快的样本,一旦学习后就较大进度),挑选的方法用样本的residual和linear temporal dynamics算出的分数进行选择,第一个分数是关注具有大残差的样本,第二个是关注样本梯度流的linear dynamic(linear dynamic捕获了样本之间的梯度相似性)

本质上是基于一些样本一旦经过学习到,就保持固定,而一部分样本的预测在训练过程中经常发生变化,这种样本更容易被遗忘,所以收集这部分样本用于训练

相似的论文创新点:

[1] Curriculum Learning by Dynamic Instance Hardness:标签翻转,当一个样本的预测结果在训练过程中经常发生变化,证明这个样本非常困难。

[2] On-line Adaptative Curriculum Learning for GANs/Teacher–student curriculum learning:导致模型进度最快的样本

InDistill: Transferring Knowledge From Pruned Intermediate Layers(2022)

Sarridis I, Koutlis C, Papadopoulos S, et al. InDistill: Transferring Knowledge From Pruned Intermediate Layers[J]. arXiv preprint arXiv:2205.10003, 2022.

提出一种通道剪枝方法,去除冗余输出通道降低模型的复杂度,通过对知识蒸馏中教师模型的中间层通道的修剪,用于减少模型之间的容量差距和保持架构对齐,用于提升单层知识蒸馏的性能。方法是通过计算过滤器的L1范数,将该值最小的top p个过滤器进行去除:
在这里插入图片描述
除此之外提出一种基于课程学习的知识转移方法,依据转移难度,先从最简单到第一层再到最后一层,依次转移每个中间层。

Pruning-then-Expanding Model for Domain Adaptation of Neural Machine Translation(2021)

Safa A, Verbelen T, Ocket I, et al. Fail-Safe Human Detection for Drones Using a Multi-Modal Curriculum Learning Approach[J]. IEEE Robotics and Automation Letters, 2021, 7(1): 303-310.

对模型进行修剪(神经元剪枝和权重剪枝),只保留重要的神经元或参数,后将模型扩展至原始大小。

  • 神经元剪枝:评估神经元的重要性,修剪不重要的神经元和相关参数,基于泰勒展开的准则 计算当去除特定神经元时的损失近似(左边为神经元被修剪时的loss,右边则未修剪时)
    在这里插入图片描述
  • 权重剪枝:直接计算和修剪每个参数,目标矩阵中各参数的绝对值被看作重要性。
    在这里插入图片描述
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值