Emerging Properties in Self-Supervised Vision Transformers
ABSTRACT
在 本 文 中 , 我 们 质 疑 自 监 督 学 习 是 否 为 Vision Transformer (ViT) 提 供 了 新 的 特 性 。除了使自监督方法适应这种架构 的效果特别好这一事实之外,我们还进行了以下观察:首先, 自监督 ViT 特征包含有关图像语义分割的明确信息,而监督 ViT 则不会如此清晰地出现,也没有convnets。其次,这些 特征也是优秀的 k-NN 分类器,在 ImageNet 上以较小的 ViT 达到 78.3% 的 top-1。我们的研究还强调了动量编码器 的重要性 [33]、多作物训练[10],以及使用带有 ViT 的小 补丁。我们将我们的发现应用到一种简单的自我监督方法中, 称为 DINO,我们将其解释为一种没有标签的自我蒸馏形式。我们通过在使用 ViT-Base 的线性评估中在 ImageNet 上实 现 80.1% 的 top-1 来展示 DINO 和 ViT 之间的协同作用。
1 介绍
transformer [70] 最近出现作为用于视觉识别的卷积神经网络 (convnets) 的替代品 [19, 69, 83]。它们的采用与受自然语言处理 (NLP) 启发的训练策略相结合,即对大量数据进行预训练并对目标数据集进行微调 [18, 55]。由此产生的视觉转换器 (ViT) [19] 与 convnets 竞争,但是,它们还没有带来明显的好处:它们在计算上要求更高,需要更多的训练数据,并且它们的特征没有表现出独特的特性。在本文中,我们质疑变形金刚在视觉方面的成功是否可以通 过 在 预 训 练 中 使 用 监 督 来 解 释 。我 们 的 动 机 是 Transformers 在 NLP 中取得成