Curriculum Learning by Optimizing Learning Dynamics(2021)
Zhou T, Wang S, Bilmes J. Curriculum learning by optimizing learning dynamics[C]//International Conference on Artificial Intelligence and Statistics. PMLR, 2021: 433-441.
提出了一个DoCL(dynamics-optimized curriculum learning)框架,每轮训练选择进步最大和学习速度最快的样本(其实就是损失较大但学习速度快的样本,一旦学习后就较大进度),挑选的方法用样本的residual和linear temporal dynamics算出的分数进行选择,第一个分数是关注具有大残差的样本,第二个是关注样本梯度流的linear dynamic(linear dynamic捕获了样本之间的梯度相似性)
本质上是基于一些样本一旦经过学习到,就保持固定,而一部分样本的预测在训练过程中经常发生变化,这种样本更容易被遗忘,所以收集这部分样本用于训练
相似的论文创新点:
[1] Curriculum Learning by Dynamic Instance Hardness:标签翻转,当一个样本的预测结果在训练过程中经常发生变化,证明这个样本非常困难。
[2] On-line Adaptative Curriculum Learning for GANs/Teacher–student curriculum learning:导致模型进度最快的样本
InDistill: Transferring Knowledge From Pruned Intermediate Layers(2022)
Sarridis I, Koutlis C, Papadopoulos S, et al. InDistill: Transferring Knowledge From Pruned Intermediate Layers[J]. arXiv preprint arXiv:2205.10003, 2022.
提出一种通道剪枝方法,去除冗余输出通道降低模型的复杂度,通过对知识蒸馏中教师模型的中间层通道的修剪,用于减少模型之间的容量差距和保持架构对齐,用于提升单层知识蒸馏的性能。方法是通过计算过滤器的L1范数,将该值最小的top p个过滤器进行去除:
除此之外提出一种基于课程学习的知识转移方法,依据转移难度,先从最简单到第一层再到最后一层,依次转移每个中间层。
Pruning-then-Expanding Model for Domain Adaptation of Neural Machine Translation(2021)
Safa A, Verbelen T, Ocket I, et al. Fail-Safe Human Detection for Drones Using a Multi-Modal Curriculum Learning Approach[J]. IEEE Robotics and Automation Letters, 2021, 7(1): 303-310.
对模型进行修剪(神经元剪枝和权重剪枝),只保留重要的神经元或参数,后将模型扩展至原始大小。
- 神经元剪枝:评估神经元的重要性,修剪不重要的神经元和相关参数,基于泰勒展开的准则 计算当去除特定神经元时的损失近似(左边为神经元被修剪时的loss,右边则未修剪时)
- 权重剪枝:直接计算和修剪每个参数,目标矩阵中各参数的绝对值被看作重要性。