【自监督论文阅读笔记】Self-Supervised Learning with Swin Transformers

Swin Transformer 的 自注意力的计算复杂度 相对 图片尺寸 是线性的

Swin Transformer 可以很容易地与 feature pyramid networks (FPN) / U-Net 等检测 / 分割网络结合,也可以仅使用最后一层的特征图经全局平均池化和线性层后做图像分类。

Swin Transformer能像 CNN 一样做层级式的特征提取 (能提取出多尺度的特征),同时相对图片大小具有线性计算复杂度.

两个结构是成对使用的,先使用一个W-MSA结构再使用一个SW-MSA结构。所以你会发现堆叠Swin Transformer Block的次数都是偶数(因为成对使用)。

通过Patch Merging层后,feature map的高和宽会减半,深度会翻倍。


Abstract:

        本文正在见证计算机视觉中从 CNN 到 Transformers 的模型转变。在这项工作中,本文提出了一种称为 MoBY 的自监督学习方法,其中 Vision Transformers 作为其骨干架构。该方法基本上没有新发明,它结合了 MoCo v2 和 BYOL 并经过调整 以在 ImageNet-1K 线性评估上达到相当高的准确度:使用 DeiT-S 和 Swin-T 分别达到 72.8% 和 75.0% 的 top-1 准确度,通过 300 个 epoch 的训练。性能略好于 MoCo v3 和 DINO 最近以 DeiT 为骨干的作品,但tricks要轻得多。

        更重要的是,通用 Swin Transformer 主干使本文还能够评估目标检测和语义分割等下游任务的学习表示,这与最近建立在 ViT/DeiT 上的一些方法相比,后者仅在 ImageNet 1K 上报告线性评估结果。 由于 ViT/DeiT 不适合这些密集的预测任务。本文希望本文的结果可以促进对为 Transformer 架构设计的自监督学习方法进行更全面的评估。本文的代码和模型可在 https://github.com/SwinTransformer/Transformer-SSL 获得,它将不断丰富。


Introduction:

        自大约两年前以来,视觉领域正在经历两个革命性的趋势。第一个趋势是 MoCo [9] 开创的自监督视觉表示学习,它首次证明了在七个下游任务上优于 ImageNet-1K 分类之前的标准监督方法的传输性能。第二个是 基于 Transformer 的骨干架构 [7, 16, 14],它具有强大的潜力来替代之前的标准卷积神经网络,例如 ResNet [11]。开创性的工作是 ViT [7],它通过 在非重叠图像块上 直接应用 NLP 中的标准 Transformer 编码器 [17],展示了图像分类的强大性能。后续工作 DeiT [16] 调整了几种训练策略,以使 ViT 在 ImageNet-1K 图像分类上运行良好。

        由于 ViT/DeiT 是为图像分类任务而设计的,并没有很好地适应需要密集预测的下游任务,但 Swin Transformer [14] 通过引入 局部性的归纳偏差、层次性 和 平移不变性,被提出用作通用视觉骨干

自我监督学习是一种机器学习方法,通过对数据进行合理的预测任务,从中获得有用的表示。与传统的监督学习不同,自我监督学习不需要人工标注的标签来指导训练,而是利用数据自身的信息进行训练。 自我监督学习的基本思想是从未标记的数据中构造有意义的标签,然后将这些标签用作训练数据,以学习有用的特征表示。通过对输入数据进行某种形式的变换或遮挡,可以生成一对相关的样本。其中一个样本称为正样本,另一个则被视为负样本。例如,在图像领域中,可以通过将图像进行旋转、裁剪或遮挡等变换来生成正负样本对。模型的目标是通过学习从一个样本到另一个样本的映射,从而使得正样本对之间的相似度更高,负样本对之间的相似度更低。 自我监督学习在许多任务中都取得了很好的效果。例如,在自然语言处理任务中,可以通过遮挡句子中的某些单词或短语来生成正负样本对,然后通过学习从一个句子到另一个句子的映射来进行训练。在计算机视觉任务中,可以通过图像的旋转、裁剪、遮挡或色彩变换等方式来生成正负样本对。 自我监督学习的优点是不需要人工标注的标签,可以利用大量的未标记数据来进行训练,从而扩大训练数据的规模。此外,自我监督学习还可以通过学习到的特征表示来提高其他任务的性能,如分类、目标检测和语义分割等。 总之,自我监督学习是一种有效的无监督学习方法,通过构造有意义的预测任务,从未标记的数据中学习有用的特征表示。它在各种任务中都有广泛的应用,并具有很高的潜力。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值