Training data-efficient image transformers & distillation through attention

Training data-efficient image transformers & distillation through attention

[论文地址]([2012.12877] Training data-efficient image transformers & distillation through attention (arxiv.org))

代码地址

主要贡献

  1. 通过基于知识蒸馏的师生策略训练了一个纯基于注意力的模型DeiT。通过该方法,在一定程度上改进了ViT需要庞大的数据资源的问题,提高了数据效率
  2. 针对Transformer,本文引入了一种基于distillation token的蒸馏策略,distillation token与class token类似,只是他的主要作用是再现教师估计的标签

Distillation through attention

蒸馏模型

在这里插入图片描述

soft distillation

在这里插入图片描述

其中Zt,Zs分别表示教师模型的logits和学生模型的logits, λ是平衡系数,LCE是交叉熵损失,KL表示KL散度,ψ 是softmax,τ表示蒸馏温度。

hard distillation

在这里插入图片描述

其中yt= argmaxcZt©是教师模型的硬标签。同时,硬币澳签可以通过标签平滑转化为软标签,其中真实标签的概率为1 − ε,ε由剩余类共享。在使用真标签的实验中ε为0.1

distillation token

distillation token与class token 类似,都通过自注意力实现与其他token的交互并在最后一层由网络输出。但class token和distillation token会朝着两个向量收敛,它们的余弦相似度的会在经过更多的层后变得很高,也就是他们的相似性会越来越高。这与它们的旨在产生相似但不相同的目标是一致的。

同时,作者也通过实验证明distillation token不是一个简单的额外class token。通过将distillation token替换为一个额外的class token可以获得一个与class token高度相似的token,但他对分类性能没有任何帮助。

实验

教师模型架构对性能影响

在这里插入图片描述

不同蒸馏策略对性能影响

在这里插入图片描述

模型的准确率和吞吐量性能比较

在这里插入图片描述

不同的蒸馏策略在训练轮次上的性能变化

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值