CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法

最新推荐文章于 2025-04-12 16:41:16 发布

PaperWeekly

最新推荐文章于 2025-04-12 16:41:16 发布

阅读量943

点赞数 1

文章标签：深度学习人工智能机器学习计算机视觉自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/129828137

版权

G2SD是一种两阶段蒸馏方法，旨在让小型视觉Transformer模型从自监督预训练中获益。通过通用蒸馏传递任务无关知识，然后用特定蒸馏学习任务特定的特征表示，G2SD在图像分类、目标检测、实例分割和语义分割任务中展现出优越性能，特别是在轻量级模型上。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©Paperweekly 原创 · 作者 | An.

单位 | 中科院自动化所

研究方向 | 计算机视觉、模型压缩

论文标题：

Generic-to-Specific Distillation of Masked Autoencoders

论文链接：

https://arxiv.org/pdf/2302.14771.pdf

代码链接：

https://github.com/pengzhiliang/G2SD

动机&背景

大型视觉 Transformer（ViT）在自监督预训练机制的推动下取得了前所未有的进步。然而，由于模型容量的限制，轻量级 ViT 模型从这些预训练机制中受益较少。知识蒸馏是将大型（教师）模型的表示转移到小型（学生）模型的模型压缩方法。传统的单阶段蒸馏容易陷入特定任务知识的转移中，无法保留对模型泛化至关重要的任务无关知识。

本文提出了通用到特定蒸馏（generic-to-specific distillation, G2SD），在 MAE（Masked AutoEncoders）[1]预训练的大型模型的监督下挖掘小型 ViT 模型的潜力。在通用蒸馏中，鼓励小模型的解码器将特征预测与大模型的隐藏表示对齐，以传递任务无关的知识。在特定蒸馏中，约束小模型的预测与大模型的概率预测保持一致，以学习能提供任务性能的特定任务的特征表示。

在自然语言处理领域，TinyBERT [1] 已经证明了两阶段蒸馏范式的有效性。本文所提出的 G2SD 方法正是这种范式计算机视觉领域的实践。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。