【CV Transformer 论文笔记】MAE: Masked Autoencoders Are Scalable Vision Learners

在这里插入图片描述

论文地址:http://arxiv.org/abs/2111.06377
项目地址:(非官方)https://github.com/pengzhiliang/MAE-pytorch

本文的主要观点是:掩码自编码器 (MAE) 是适用于计算机视觉的可扩展自监督学习器。

如果说ViT对应于NLP中的Tranformer,MAE实际上是对应于BERT

MAE的核心思想是随机屏蔽输入图像一部分的patches随后重建被屏蔽的像素。 这种将输入映射到潜在表示再重构输入的编码器-解码器结构就叫做Autoencoder

MAE基于2个核心设计
1、非对称编码器-解码器架构,其中编码器仅对可见的patches编码,随后将mask tokens加入编码结果中馈送到轻量级解码器。
2、屏蔽输入图像的较大一部分(本文使用75%),更有利于自监督任务的训练。
上述两种设计使得大型模型的训练可以加速3 倍以上并提高准确性。

在这里插入图片描述

作者提到了语言和视觉之间的信息密度不同语言是人类生成的具有高度语义和信息密集度的信号,一个句子入如果有几个遗漏单词,那么句子的意思会有较大改变。而图像是具有严重空间冗余的自然信号,例如可以通过插值提高图像分辨率、单一背景、重复图案等等。

同时作者认为在学习隐藏表示的语义层次时,解码器的设计起到了更重要的作用。

综上两点,MAE才使用了75%这么高的屏蔽率来减少编码器的计算量,同时这种设计还可以让原本需要较大数据来训练的模型,在ImageNet-1K数据集上就能有很好的效果。
在这里插入图片描述

模型结构

MAE编码器

MAE的编码器结构与ViT的的编码器结构相同,也实现利用线性投影和额外的positional embeddings把patches进行嵌入,然后送到一系列Transformer blocks中处理。但是MAE仅对25%的随机可见patches进行编码。

MAE解码器

MAE 解码器的输入在经过编码的可见patches基础上加入余下位置的Mask tokens,构成完整的整幅图像。Mask token是一个共享的、经过学习的向量来表示需要预测的缺失patch,Mask token也添加了位置嵌入

由于MAE的主要目的是进行迁移学习的预训练, 解码器仅在预训练期间用于执行图像重建任务,因此解码器架构可以以独立于编码器设计。 本文使用了轻量级的Tranformer解码器来减少了预训练时间

损失函数计算像素空间中重建图像和原始图像之间(仅计算被屏蔽的patches)的均方误差 (MSE)

结果分析

屏蔽率对于fine-tuning和linear probing准确率的影响:
在这里插入图片描述

不同的屏蔽策略对重建图像的影响:
在这里插入图片描述

训练的Epochs与准确率的变化:

在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Vision Transformer(ViT)是一种用于计算机视觉任务的模型,可以被看作是Transformer计算机视觉领域的等效物,就像Transformer在自然语言处理中的重要性一样。ViT的优势在于以下几个方面。 首先,ViT采用了与原始的Transformer结构尽可能一致的模型设计,这样做的好处是可以充分利用在自然语言处理中已有的Transformer实现过程,方便使用和扩展。 这种一致性设计使得ViT具有良好的扩展性,可以应用于各种计算机视觉任务,并且可以借鉴NLP领域中的许多成功的Transformer结构和技术。 其次,ViT利用了Masked Autoencoders Are Scalable Vision LearnersMAE)[3]的思想,可以实现对图像的无监督学习,从而减少对大量标注数据的依赖。通过无监督学习,ViT可以在没有标签的情况下,探索图像的内在结构和特征,从而提取更有效的视觉表示。这种无监督学习的方法在数据集较小或标注困难的情况下尤为有用。 此外,ViT还具备了Transformer模型的其他优势,例如可以并行计算、全局上下文建模和长距离依赖关系的建模能力。这些优势使得ViT在图像分类、目标检测、图像分割等计算机视觉任务中取得了令人瞩目的性能。 综上所述,Vision Transformer(ViT)在模型设计上与Transformer结构一致,并且借鉴了Masked Autoencoders Are Scalable Vision LearnersMAE)的思想,同时具备了Transformer模型的优势,使得ViT在计算机视觉任务中展现出强大的性能和扩展性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Vision Transformer(ViT)](https://blog.csdn.net/qq_32275289/article/details/123973687)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值