[MAE] Masked Autoencoders Are Scalable Vision Learners

1、目的

        NLP领域的自监督预训练非常成功,CV领域可以参考其masked autoencoding方法。主要挑战有:

        1)CNN不会直接用mask tokens或者positional embeddings,而是在规则网格上运算 -> Vision Transformers (ViT)

        2)Language是人为创造的,在语义和信息上非常密集,即便只训练模型预测一个句子中的个别缺失的单词,也能学到有用的信息;而图像则有极大的空间冗余,只用相邻图像块,而无需高级语义理解,就可以进行图像复原 -> 随机遮挡大量的patch

        3)decoder很大程度上决定了学到的latent representation的semantic level

2、方法

                asymmetric encoder-decoder

                ​​​​​​​        ​​​​​​​        

        1)masking

                a)non-overlapping patches

                b)random sampling (uniform distribution) 

                c)high masking ratio (75%;减小了redundancy,避免了从visible neighboring patches中推断出内容)

        2)encoder

                a)ViT (transformer blocks + positional embedding)

                b)只用visible patches作为输入,不用mask tokens。极大地减少了预训练时间(3x),减少了存储消耗

        3)decoder

                a)lightweight;Transformer blocks + positional embeddings

                b)同时用latent representation和mask tokens作为输入

        4)reconstruction target

                a)decoder的最后一层的channel数 = patch pixel数目

                      each element in the output is a vector of pixel values representing a patch

                b)只在masked patches上计算MSE loss

                c)以patch为单位对pixel进行normalize可以提升representation quality

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Vision Transformer(ViT)是一种用于计算机视觉任务的模型,可以被看作是Transformer在计算机视觉领域的等效物,就像Transformer在自然语言处理中的重要性一样。ViT的优势在于以下几个方面。 首先,ViT采用了与原始的Transformer结构尽可能一致的模型设计,这样做的好处是可以充分利用在自然语言处理中已有的Transformer实现过程,方便使用和扩展。 这种一致性设计使得ViT具有良好的扩展性,可以应用于各种计算机视觉任务,并且可以借鉴NLP领域中的许多成功的Transformer结构和技术。 其次,ViT利用了Masked Autoencoders Are Scalable Vision LearnersMAE)[3]的思想,可以实现对图像的无监督学习,从而减少对大量标注数据的依赖。通过无监督学习,ViT可以在没有标签的情况下,探索图像的内在结构和特征,从而提取更有效的视觉表示。这种无监督学习的方法在数据集较小或标注困难的情况下尤为有用。 此外,ViT还具备了Transformer模型的其他优势,例如可以并行计算、全局上下文建模和长距离依赖关系的建模能力。这些优势使得ViT在图像分类、目标检测、图像分割等计算机视觉任务中取得了令人瞩目的性能。 综上所述,Vision Transformer(ViT)在模型设计上与Transformer结构一致,并且借鉴了Masked Autoencoders Are Scalable Vision LearnersMAE)的思想,同时具备了Transformer模型的优势,使得ViT在计算机视觉任务中展现出强大的性能和扩展性。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Vision Transformer(ViT)](https://blog.csdn.net/qq_32275289/article/details/123973687)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值