【论文阅读】【ViT系列】DeiT：数据高效的图像transformers的训练&通过注意力的蒸馏

naive_learner

已于 2022-02-05 17:20:12 修改

阅读量5k

点赞数 1

分类专栏：论文阅读文章标签：深度学习计算机视觉 transformer

于 2022-02-05 00:04:11 首次发布

本文链接：https://blog.csdn.net/naive_learner/article/details/122779334

版权

论文阅读专栏收录该内容

3 篇文章 1 订阅

订阅专栏

论文：Training data-efficient image transformers & distillation through attention
代码：https://github.com/facebookresearch/deit

1 主要贡献

使用ImageNet数据（无外部数据）将无卷积层的transformer网络训练到了SOTA水平，训练时间短；
（原始的vision transformer需要使用非公开的JFT-300M数据集进行大量训练，无法复现）
提出了基于distillation token的蒸馏机制，distillation token用于学习教师网络的预测结果；
图像transformers从卷积网络中学习的效果优于从其他transformers中学习；
在ImageNet上预学习的网络在多个下游基准中也有竞争力。

性能对比：top-1准确率 vs. 网络吞吐量（仅在ImageNet1k上训练）——使用transformer专用蒸馏方法训练的模型最优。

2 原理

2.1 Vision Transformer

回顾原始ViT的原理：

多头自注意力层（MSA）的设计：transformer；
针对图片的tranformer block：FFN + MSA；
class token：来自NLP；
训练时用低分辨率图片，微调时用高分辨率图片，改变分辨率时插值改变位置编码。

2.2 Distillation through attention

主要介绍了软蒸馏、硬蒸馏两种损失函数，和Distillation token结构。

2.2.1 软蒸馏

$\mathcal{L}_{global}=(1-\lambda)\mathcal{L}_{CE}(\psi(Z_s),y)+\lambda\tau^2\mathrm{KL}(\psi(Z_s/\tau),\psi(Z_t/\tau))$
$\lambda,\tau$ 是超参数， $y$ 是ground truth， $\psi$ 是softmax函数， $Z_s,Z_t$ 分别是学生模型、教师模型的输出， $\mathcal{L}_{CE}$ 是交叉熵损失， $\mathrm{KL}$ 是KL散度。

2.2.2 硬蒸馏

$\mathcal{L}_{global}^{hardDistill}=\frac12\mathcal{L}_{CE}(\psi(Z_s),y)+\frac12\tau^2\mathcal{L}_{CE}(\psi(Z_s),y_t)$
$y_t$ 是教师模型的预测结果。

2.2.3 Distillation token

如图，在patches中加入与class token类似的distillation token，两者的通过网络时的计算方式相同，区别在于class token目标是重现ground truth标签，而distillation token目标是重现教师模型的预测。
输出时的distillation token与class token余弦相似度为0.93，表明两者的目标相似但不相同。
当用一个class token替换distillation token时，两个class token输出的余弦相似度为0.999，网络性能与一个class token相近，而加入distillation token的网络性能明显提升。这表明distillation token的设定是有效的。