CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法

da81294c149f312290b6ba4793b27c4d.gif

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

88ac4ab3cb7f4ab202f874ab42dddc02.png

论文标题:

Generic-to-Specific Distillation of Masked Autoencoders

论文链接:

https://arxiv.org/pdf/2302.14771.pdf

代码链接:

https://github.com/pengzhiliang/G2SD

e0a351e47b559621ff8f348a4d7479cf.png

动机&背景

大型视觉 Transformer(ViT)在自监督预训练机制的推动下取得了前所未有的进步。然而,由于模型容量的限制,轻量级 ViT 模型从这些预训练机制中受益较少。知识蒸馏是将大型(教师)模型的表示转移到小型(学生)模型的模型压缩方法。传统的单阶段蒸馏容易陷入特定任务知识的转移中,无法保留对模型泛化至关重要的任务无关知识

本文提出了通用到特定蒸馏(generic-to-specific distillation, G2SD),在 MAE(Masked AutoEncoders)[1]预训练的大型模型的监督下挖掘小型 ViT 模型的潜力。在通用蒸馏中,鼓励小模型的解码器将特征预测与大模型的隐藏表示对齐,以传递任务无关的知识。在特定蒸馏中,约束小模型的预测与大模型的概率预测保持一致,以学习能提供任务性能的特定任务的特征表示。

在自然语言处理领域,TinyBERT [1] 已经证明了两阶段蒸馏范式的有效性。本文所提出的 G2SD 方法正是这种范式计算机视觉领域的实践

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值