Training data-efficient image transformers & distillation through attention

歪歪_yy

已于 2022-06-09 10:33:43 修改

阅读量261

点赞数

分类专栏：论文阅读文章标签：深度学习人工智能机器学习

于 2022-06-05 21:03:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/The_rice/article/details/125136682

版权

论文阅读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Training data-efficient image transformers & distillation through attention

[论文地址]([2012.12877] Training data-efficient image transformers & distillation through attention (arxiv.org))

主要贡献

通过基于知识蒸馏的师生策略训练了一个纯基于注意力的模型DeiT。通过该方法，在一定程度上改进了ViT需要庞大的数据资源的问题，提高了数据效率
针对Transformer，本文引入了一种基于distillation token的蒸馏策略，distillation token与class token类似，只是他的主要作用是再现教师估计的标签

Distillation through attention

蒸馏模型

在这里插入图片描述

soft distillation

在这里插入图片描述

其中Z_t，Z_s分别表示教师模型的logits和学生模型的logits， λ是平衡系数，L_CE是交叉熵损失，KL表示KL散度，ψ 是softmax，τ表示蒸馏温度。

hard distillation

在这里插入图片描述

其中y_t= argmax_cZ_t©是教师模型的硬标签。同时，硬币澳签可以通过标签平滑转化为软标签，其中真实标签的概率为1 − ε，ε由剩余类共享。在使用真标签的实验中ε为0.1

distillation token

distillation token与class token 类似，都通过自注意力实现与其他token的交互并在最后一层由网络输出。但class token和distillation token会朝着两个向量收敛，它们的余弦相似度的会在经过更多的层后变得很高，也就是他们的相似性会越来越高。这与它们的旨在产生相似但不相同的目标是一致的。

同时，作者也通过实验证明distillation token不是一个简单的额外class token。通过将distillation token替换为一个额外的class token可以获得一个与class token高度相似的token，但他对分类性能没有任何帮助。

实验

教师模型架构对性能影响

在这里插入图片描述

不同蒸馏策略对性能影响

在这里插入图片描述

模型的准确率和吞吐量性能比较

在这里插入图片描述

不同的蒸馏策略在训练轮次上的性能变化

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Training data-efficient image transformers & distillation through attention

Training data-efficient image transformers & distillation through attention
复制链接

扫一扫

专栏目录

歪歪_yy CSDN认证博客专家 CSDN认证企业博客

码龄5年

4: 原创

111万+: 周排名

120万+: 总排名

1万+: 访问

: 等级

87: 积分

8: 粉丝

11: 获赞

6: 评论

78: 收藏

私信

关注

热门文章

分类专栏

最新评论

A Novel Plug-in Module for Fine-Grained Visual Classification学习
枳言: 这篇文章原文是不是有很多小错误
疫情数据爬取，可视化及其预测
ㅤAA樱木: 可以求一下爬取的数据吗，代码运行不出来
MaxViT: Multi-Axis Vision Transformer
m0_63127020: 我想问一下，这个骨干网络能不能用于多尺度特征学习中？文章中的特征图7x7、14x14、28x28、56x56，应用当中是直接使用的么？小目标可不可以使用这个骨干网络？求回答！！！谢谢
疫情数据爬取，可视化及其预测
shuredstar: 请求 URL: https://voice.baidu.com/api/newpneumonia?from=page&callback=jsonp_1664807227097_20636 这个里面url地址是如何构成的，1664807227097这个是时间戳，主要是末尾的五位数20636是如何计算出来的？
疫情数据爬取，可视化及其预测
m0_71554588: 请问这个是神经网络算法吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。