Training data-efficient image transformers & distillation through attention
[论文地址]([2012.12877] Training data-efficient image transformers & distillation through attention (arxiv.org))
主要贡献
- 通过基于知识蒸馏的师生策略训练了一个纯基于注意力的模型DeiT。通过该方法,在一定程度上改进了ViT需要庞大的数据资源的问题,提高了数据效率
- 针对Transformer,本文引入了一种基于distillation token的蒸馏策略,distillation token与class token类似,只是他的主要作用是再现教师估计的标签
Distillation through attention
蒸馏模型
soft distillation
其中Zt,Zs分别表示教师模型的logits和学生模型的logits, λ是平衡系数,LCE是交叉熵损失,KL表示KL散度,ψ 是softmax,τ表示蒸馏温度。
hard distillation
其中yt= argmaxcZt©是教师模型的硬标签。同时,硬币澳签可以通过标签平滑转化为软标签,其中真实标签的概率为1 − ε,ε由剩余类共享。在使用真标签的实验中ε为0.1
distillation token
distillation token与class token 类似,都通过自注意力实现与其他token的交互并在最后一层由网络输出。但class token和distillation token会朝着两个向量收敛,它们的余弦相似度的会在经过更多的层后变得很高,也就是他们的相似性会越来越高。这与它们的旨在产生相似但不相同的目标是一致的。
同时,作者也通过实验证明distillation token不是一个简单的额外class token。通过将distillation token替换为一个额外的class token可以获得一个与class token高度相似的token,但他对分类性能没有任何帮助。
实验
教师模型架构对性能影响
不同蒸馏策略对性能影响
模型的准确率和吞吐量性能比较
不同的蒸馏策略在训练轮次上的性能变化