©Paperweekly 原创 · 作者 | An.
单位 | 中科院自动化所
研究方向 | 计算机视觉、模型压缩
论文标题:
Generic-to-Specific Distillation of Masked Autoencoders
论文链接:
https://arxiv.org/pdf/2302.14771.pdf
代码链接:
https://github.com/pengzhiliang/G2SD
动机&背景
大型视觉 Transformer(ViT)在自监督预训练机制的推动下取得了前所未有的进步。然而,由于模型容量的限制,轻量级 ViT 模型从这些预训练机制中受益较少。知识蒸馏是将大型(教师)模型的表示转移到小型(学生)模型的模型压缩方法。传统的单阶段蒸馏容易陷入特定任务知识的转移中,无法保留对模型泛化至关重要的任务无关知识。
本文提出了通用到特定蒸馏(generic-to-specific distillation, G2SD),在 MAE(Masked AutoEncoders)[1]预训练的大型模型的监督下挖掘小型 ViT 模型的潜力。在通用蒸馏中,鼓励小模型的解码器将特征预测与大模型的隐藏表示对齐,以传递任务无关的知识。在特定蒸馏中,约束小模型的预测与大模型的概率预测保持一致,以学习能提供任务性能的特定任务的特征表示。
在自然语言处理领域,TinyBERT [1] 已经证明了两阶段蒸馏范式的有效性。本文所提出的 G2SD 方法正是这种范式计算机视觉领域的实践。