DeiT详解:知识蒸馏的Transformer
0. 引言
针对 ViT
需求数据量大、运算速度慢的问题,Facebook 与索邦大学 Matthieu Cord 教授合作发表 Training data-efficient image transformers(DeiT) & distillation through attention
。DeiT
将知识蒸馏
的策略与 ViT
相结合,性能与最先进的卷积神经网络(CNN)可以抗衡。
论文名称:Training data-efficient image transformers & distillation through attention
论文地址:https://arxiv.org/abs/2012.12877
代码地址:https://github.com/facebookresearch/deit
1. ViT
提到 DeiT
,就不提不提及 ViT
。这里