AMiner推荐论文:Masked Autoencoders Are Scalable Vision Learners

论文链接: https://www.aminer.cn/pub/618ddb455244ab9dcbda8f5f?f=cs
作者先将图像均匀划分为非重叠区块,然后随机对区块进行采样。
以遮蔽比例75%为例,它先在输入图像中掩蔽75%的随机区块,编码器只在可见的25%区块子集上运行,这样就可以只用非常少的计算和显存,来训练非常大的编码器。
然后解码器将可见的token和掩码token组合,并向所有token中添加位置嵌入,通过预测每个掩蔽区块的像素值来重建图像信号。
这样一来,在预训练时解码器可以独立于编码器,从而可以用非常轻量级解码器实验,大量减少预训练时间。
另一个特点则是对输入图像的高比例进行遮蔽时,自监督任务效果非常好。
AMiner,让AI帮你理解科学!https://www.aminer.cn
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值