文献阅读：Training data-efficient image transformers & distillation through attention-CSDN博客

本文链接：https://blog.csdn.net/MRzzyy/article/details/118334883

Training data-efficient image transformers & distillation through attention

1.四个问题
要解决什么问题
解决Transformer在图像分类问题中对数据集的限制
用什么方法解决
作者提出 DeiT，一种图像 transformers，通过改进训练和蒸馏过程，不需要非常大的数据量来进行训练。
而相比与 EfficientNets 来说，DeiT 只对已有的数据增强和正则化策略进行了优化，除了distillation token 之外，没有引入任何重要的架构。因此更加利于数据增强的研究与学习 transformers 。

贡献：
• 文中神经网络不包含卷积层，可以在没有外部数据的情况下在 ImageNet 上取得与现有技术相比具有竞争力的结果。它们是在三天内在具有 4 个 GPU 的单个节点上学习的。文中的两个新模型 DeiT-S 和 DeiT-Ti 参数更少，可以看作是 ResNet-50 和 ResNet-18 的对应物。
• 引入了一种基于distillation token的新蒸馏程序，它与class token的作用相同，只是它旨在再现教师估计的标签。两个token通过注意力在转换器中进行交互。这种针对变压器的策略明显优于vanilla distillation。
• 通过本文的distillation，图像转换器从 convnet 中学到的比从另一个具有可比性能的转换器中学到的更多。
• 在 Imagenet 上预先学习的模型在转移到不同的下游任务（例如细粒度分类）时在几个流行的公共基准上具有竞争力：CIFAR-10、CIFAR-100、Oxford-102 花、斯坦福汽车和 iNaturalist-18/19 .
效果如何
在ImageNet上达到83.1％的top-1精度，蒸馏版本高达84.4%
还存在什么问题

PS:鄙人比较菜，暂时没有发现问题
论文简介：
摘要： 最近，纯粹基于注意力的神经网络被证明可以解决诸如图像分类之类的图像理解任务。这些高性能的视觉转换器使用大型基础设施对数亿张图像进行了预训练，从而限制了它们的采用。
在这项工作中，我们仅通过在 Imagenet 上进行训练来生产具有竞争力的无卷积变换器。我们在不到 3 天的时间内在一台计算机上训练他们。我们的参考视觉转换器（86M 参数）在没有外部数据的情况下在 ImageNet 上达到了 83.1%（单次裁剪）的 top-1 准确率。
更重要的是，我们引入了一种特定于 Transformer 的师生策略。它依赖于蒸馏令牌，确保学生通过注意力向老师学习。我们展示了这种基于令牌的蒸馏的兴趣，尤其是在使用 convnet 作为老师时。这导致我们在 Imagenet（我们获得高达 85.2% 的准确率）和转移到其他任务时报告的结果与 convnets 具有竞争力。我们共享我们的代码和模型。

网络结构：
在这里插入图片描述