ICCV 2021 | Transformer结合自监督学习！Facebook开源DINO

最新推荐文章于 2024-08-09 08:14:08 发布

tiantianwenwen

最新推荐文章于 2024-08-09 08:14:08 发布

阅读量1.3k

点赞数

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/tiantianwenwen/article/details/119282016

版权

本文探讨了自监督学习如何为Vision Transformer（ViT）提供独特特性，发现自监督ViT特征包含语义分割信息，且在k-NN分类中表现出色。DINO是一种自我监督方法，通过无标签的自我蒸馏提高ViT性能，线性评估中在ImageNet上达到80.1%的top-1准确率。

摘要由CSDN通过智能技术生成

Emerging Properties in Self-Supervised Vision Transformers

ABSTRACT

在本文中，我们质疑自监督学习是否为 Vision Transformer (ViT) 提供了新的特性。除了使自监督方法适应这种架构的效果特别好这一事实之外，我们还进行了以下观察：首先，自监督 ViT 特征包含有关图像语义分割的明确信息，而监督 ViT 则不会如此清晰地出现，也没有convnets。其次，这些特征也是优秀的 k-NN 分类器，在 ImageNet 上以较小的 ViT 达到 78.3% 的 top-1。我们的研究还强调了动量编码器的重要性 [33]、多作物训练[10]，以及使用带有 ViT 的小补丁。我们将我们的发现应用到一种简单的自我监督方法中，称为 DINO，我们将其解释为一种没有标签的自我蒸馏形式。我们通过在使用 ViT-Base 的线性评估中在 ImageNet 上实现 80.1% 的 top-1 来展示 DINO 和 ViT 之间的协同作用。

1 介绍

transformer [70] 最近出现作为用于视觉识别的卷积神经网络 (convnets) 的替代品 [19, 69, 83]。它们的采用与受自然语言处理 (NLP) 启发的训练策略相结合，即对大量数据进行预训练并对目标数据集进行微调 [18, 55]。由此产生的视觉转换器 (ViT) [19] 与 convnets 竞争，但是，它们还没有带来明显的好处：它们在计算上要求更高，需要更多的训练数据，并且它们的特征没有表现出独特的特性。在本文中，我们质疑变形金刚在视觉方面的成功是否可以通过在预训练中使用监督来解释。我们的动机是 Transformers 在 NLP 中取得成