知识蒸馏
文章平均质量分 95
杨立青101
这个作者很懒,什么都没留下…
展开
-
【知识蒸馏】 DistPro: Searching A Fast Knowledge Distillation Process via Meta Optimization
最近的知识蒸馏 (KD) 研究表明,不同的手动设计方案显着影响学习的结果。然而,在 KD 中,自动搜索最佳蒸馏方案尚未得到很好的探索。在本文中,我们提出了 DistPro,这是一个新颖的框架,它通过可微元学习搜索最佳 KD 过程。具体来说,给定一对学生和教师网络,DistPro 首先将一组丰富的KD连接从教师的传输层设置为学生的接收层,同时还提出了各种变换来比较特征图及其蒸馏途径。然后,连接和转换选择(路径)的每个组合都与随机加权过程相关联,该过程表明其在蒸馏过程中的每一步的重要性。原创 2023-03-01 10:19:15 · 390 阅读 · 0 评论 -
【知识蒸馏】 Knowledge Distillation from A Stronger Teacher
近年来,视觉模型的精度凭借更高级的训练策略和模型结构取得了大幅度的提升,但更新颖的模型也给知识蒸馏的应用带来了许多挑战。当前大部分知识蒸馏方法仍然是在传统的基准训练策略和模型上进行研究和实验,而在精度更高的新颖模型和策略下的表现甚至低于不使用知识蒸馏。以往的工作大多将此归结为模型的容量差异(capacity gap)导致的蒸馏效果下降。本文将介绍来自商汤研究团队和悉尼大学等机构的研究人员提出的一种logits层面的知识蒸馏算法DIST。原创 2023-02-28 20:41:54 · 1814 阅读 · 2 评论 -
【知识蒸馏】Masked Generative Distillation
知识蒸馏已成功应用于各种任务。当前的蒸馏算法通常通过模仿教师的输出来提高学生的表现。本文表明,教师还可以通过指导学生的特征恢复来提高学生的表征能力。从这个角度来看,我们提出了掩蔽生成蒸馏(MGD),它很简单:我们屏蔽学生特征的随机像素,并迫使它通过一个简单的块生成教师的完整特征。MGD是一种真正通用的基于特征的蒸馏方法,可用于各种任务,包括图像分类、目标检测、语义分割和实例分割。我们在具有广泛数据集的不同模型上进行了实验,结果表明所有学生都取得了出色的改进。原创 2023-01-02 20:37:38 · 1250 阅读 · 0 评论