MAE:Masked Autoencoders Are Scalable Vision Learners(带掩码的自编码器是可扩展的学习器)论文阅读

MAE是一种可扩展的计算机视觉方法,通过在图像中随机遮挡patches并重建来训练模型。它使用不对称的编码器-解码器设计,其中编码器仅处理未遮挡的patches,而轻量级解码器则重建整个图像。高比例的遮挡(如75%)使得训练更高效,且在多个下游任务中表现优于有监督预训练。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Masked Autoencoders Are Scalable Vision Learners

在这里插入图片描述

论文地址:Masked Autoencoders Are Scalable Vision Learners
论文代码:MAE—github

Abstract

  在MoCo(未了解过的同学可以移步:Momentum Contrast)这篇论文中,作者最后这样总结道:“MoCo从ImageNet-1M到Instagram-1B的改进一直很明显,但相对较小,这表明更大规模的数据可能没有得到充分利用。我们希望使用高级的pretext task来改善这一点。也就是说除了简单的instance discrimination任务,例如在语言和视觉中还可以采用MoCo来执行诸如masked auto-encoding(MAE,带掩码的自动编码器)之类的pretext task。”因此就有了这篇MAE论文。
  本文证明了MAE是一种可扩展的计算机视觉自监督学习器。MAE方法很简单:屏蔽输入图像的随机patches并重建缺失的像素。它基于两个核心设计:首先,使用了一个非对称编码器-解码器体系结构,其中一个编码器只在可见的patches子集上运行(没有掩码的tokens),另一个轻量级解码器从潜在表示和掩码tokens重建原始图像。其次,作者发现设置输入图像的高比例(例如75%)会产生一项不平凡且有意义的自我监督任务。将这两种设计结合起来能够高效地训练大型模型:加快训练速度(提高3倍或更多,因为掩码比例如果在75%以上,那么只要计算输入图像的1/4或者更少,自然速度就加快了3倍或以上)并提高精度。该可扩展方法允许学习具有良好通用性的高容量模型:例如,在仅使用ImageNet-1K数据的方法中,普通的ViT-H模型的精度最高(87.8%)。下游任务中的迁移性能优于有监督的预训练,并表现出良好的伸缩行为。

Introduction

  深度学习在过去一段时间内有着爆炸式的增长。在硬件快速增长的帮助下,如今的模型很容易超过100万张图像,并开始需要数亿张通常难以获取的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值