论文学习记录

最新推荐文章于 2024-07-10 22:11:08 发布

chaoslper

最新推荐文章于 2024-07-10 22:11:08 发布

阅读量857

点赞数

文章标签：学习机器学习人工智能剪枝

本文链接：https://blog.csdn.net/ashuak/article/details/126102743

版权

Curriculum Learning by Optimizing Learning Dynamics（2021）

Zhou T, Wang S, Bilmes J. Curriculum learning by optimizing learning dynamics[C]//International Conference on Artificial Intelligence and Statistics. PMLR, 2021: 433-441.

提出了一个DoCL(dynamics-optimized curriculum learning)框架，每轮训练选择进步最大和学习速度最快的样本(其实就是损失较大但学习速度快的样本，一旦学习后就较大进度)，挑选的方法用样本的residual和linear temporal dynamics算出的分数进行选择，第一个分数是关注具有大残差的样本，第二个是关注样本梯度流的linear dynamic（linear dynamic捕获了样本之间的梯度相似性）

本质上是基于一些样本一旦经过学习到，就保持固定，而一部分样本的预测在训练过程中经常发生变化，这种样本更容易被遗忘，所以收集这部分样本用于训练

相似的论文创新点：

[1] Curriculum Learning by Dynamic Instance Hardness：标签翻转，当一个样本的预测结果在训练过程中经常发生变化，证明这个样本非常困难。

[2] On-line Adaptative Curriculum Learning for GANs/Teacher–student curriculum learning：导致模型进度最快的样本

InDistill: Transferring Knowledge From Pruned Intermediate Layers（2022）

Sarridis I, Koutlis C, Papadopoulos S, et al. InDistill: Transferring Knowledge From Pruned Intermediate Layers[J]. arXiv preprint arXiv:2205.10003, 2022.

提出一种通道剪枝方法，去除冗余输出通道降低模型的复杂度，通过对知识蒸馏中教师模型的中间层通道的修剪，用于减少模型之间的容量差距和保持架构对齐，用于提升单层知识蒸馏的性能。方法是通过计算过滤器的L1范数，将该值最小的top p个过滤器进行去除：
在这里插入图片描述
除此之外提出一种基于课程学习的知识转移方法，依据转移难度，先从最简单到第一层再到最后一层，依次转移每个中间层。

Pruning-then-Expanding Model for Domain Adaptation of Neural Machine Translation（2021）

Safa A, Verbelen T, Ocket I, et al. Fail-Safe Human Detection for Drones Using a Multi-Modal Curriculum Learning Approach[J]. IEEE Robotics and Automation Letters, 2021, 7(1): 303-310.

对模型进行修剪（神经元剪枝和权重剪枝），只保留重要的神经元或参数，后将模型扩展至原始大小。

神经元剪枝：评估神经元的重要性，修剪不重要的神经元和相关参数，基于泰勒展开的准则计算当去除特定神经元时的损失近似（左边为神经元被修剪时的loss，右边则未修剪时）
权重剪枝：直接计算和修剪每个参数，目标矩阵中各参数的绝对值被看作重要性。

chaoslper

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文学习记录

Curriculum Learning by Optimizing Learning Dynamics/InDistill: Transferring Knowledge From Pruned Intermediate Layers/Pruning-then-Expanding Model for Domain Adaptation of Neural Machine Translation
复制链接

扫一扫