ICCV 2021 | Transformer结合自监督学习!Facebook开源DINO

本文探讨了自监督学习如何为Vision Transformer(ViT)提供独特特性,发现自监督ViT特征包含语义分割信息,且在k-NN分类中表现出色。DINO是一种自我监督方法,通过无标签的自我蒸馏提高ViT性能,线性评估中在ImageNet上达到80.1%的top-1准确率。
摘要由CSDN通过智能技术生成

Emerging Properties in Self-Supervised Vision Transformers

ABSTRACT

在 本 文 中 , 我 们 质 疑 自 监 督 学 习 是 否 为 Vision Transformer (ViT) 提 供 了 新 的 特 性 。除了使自监督方法适应这种架构 的效果特别好这一事实之外,我们还进行了以下观察:首先, 自监督 ViT 特征包含有关图像语义分割的明确信息,而监督 ViT 则不会如此清晰地出现,也没有convnets。其次,这些 特征也是优秀的 k-NN 分类器,在 ImageNet 上以较小的 ViT 达到 78.3% 的 top-1。我们的研究还强调了动量编码器 的重要性 [33]、多作物训练[10],以及使用带有 ViT 的小 补丁。我们将我们的发现应用到一种简单的自我监督方法中, 称为 DINO,我们将其解释为一种没有标签的自我蒸馏形式。我们通过在使用 ViT-Base 的线性评估中在 ImageNet 上实 现 80.1% 的 top-1 来展示 DINO 和 ViT 之间的协同作用。

1 介绍

transformer [70] 最近出现作为用于视觉识别的卷积神经网络 (convnets) 的替代品 [19, 69, 83]。它们的采用与受自然语言处理 (NLP) 启发的训练策略相结合,即对大量数据进行预训练并对目标数据集进行微调 [18, 55]。由此产生的视觉转换器 (ViT) [19] 与 convnets 竞争,但是,它们还没有带来明显的好处:它们在计算上要求更高,需要更多的训练数据,并且它们的特征没有表现出独特的特性。在本文中,我们质疑变形金刚在视觉方面的成功是否可以通 过 在 预 训 练 中 使 用 监 督 来 解 释 。我 们 的 动 机 是 Transformers 在 NLP 中取得成

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tiantianwenwen

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值