DeiT：使用Attention蒸馏Transformer

最新推荐文章于 2024-07-16 10:14:12 发布

*pprp*

最新推荐文章于 2024-07-16 10:14:12 发布

阅读量1.1k

点赞数

分类专栏：论文阅读知识总结 Transformer 文章标签： transformer 深度学习神经网络

原创文章不要私自转载，自私转载必究责任，如需转载请联系wx:topeijie商谈

本文链接：https://blog.csdn.net/dd_pp_jj/article/details/120449728

版权

题目：Training data-efficient image transformers & distillation through attention

【GiantPandaCV导语】Deit是一个全Transformer的架构，没有使用任何的卷及操作。其核心是将蒸馏方法引入VIT的训练，引入了一种教师-学生的训练策略，提出了token-based distillation。有趣的是，这种训练策略使用卷积网络作为教师网络进行蒸馏，能够比使用transformer架构的网络作为教师取得更好的效果。

简介

之前的ViT需要现在JFT-300M大型数据集上预训练，然后在ImageNet-1K上训练才能得到出色的结果，但这借助了额外的数据。

ViT文中也表示：“do not generalize well when trained on insufficient amounts of data”数据量不足会导致ViT效果变差。

针对以上问题，Deit核心共享是使用了蒸馏策略，能够仅使用ImageNet-1K数据集就就可以达到83.1%的Top1。

文章贡献如下：

仅使用Transformer，不引入Conv的情况下也能达到SOTA效果。
提出了基于token蒸馏的策略，这种针对transformer的蒸馏方法可以超越原始的蒸馏方法。
Deit发现使用Convnet作为教师网络能够比使用Transformer架构取得更好的效果。

知识蒸馏

Knowledge Distillation（KD）最初被Hinton提出，与Label smoothing动机类似，但是KD生成soft label的方式是通过教师网络得到的。

KD可以视为将教师网络学到的信息压缩到学生网络中。还有一些工作“Circumventing outlier of autoaugment with knowledge distillation”则将KD视为数据增强方法的一种。

KD能够以soft的方式将归纳偏置传递给学生模型，Deit中使用Conv-Based架构作为教师网络，将局部性的假设通过蒸馏方式引入Transformer中，取得了不错的效果。

本文提出了两种KD:

Soft Distillation: 使用KL散度衡量教师网络和学生网络的输出，即Hinton提出的方法。

$\mathcal{L}_{\text {global }}=(1-\lambda) \mathcal{L}_{\mathrm{CE}}\left(\psi\left(Z_{\mathrm{s}}\right), y\right)+\lambda \tau^{2} \mathrm{KL}\left(\psi\left(Z_{\mathrm{s}} / \tau\right), \psi\left(Z_{\mathrm{t}} / \tau\right)\right)$

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

*pprp* 如果有帮助可以打赏一杯咖啡

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。