AMiner推荐论文：Masked Autoencoders Are Scalable Vision Learners

AMiner学术搜索和科技情报挖掘

于 2021-11-15 16:56:14 发布

阅读量953

点赞数

分类专栏： AMiner论文推荐 AMiner 文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AI_Conf/article/details/121338316

版权

AMiner 同时被 2 个专栏收录

729 篇文章 44 订阅

订阅专栏

AMiner论文推荐

515 篇文章 52 订阅

订阅专栏

论文链接： https://www.aminer.cn/pub/618ddb455244ab9dcbda8f5f?f=cs
作者先将图像均匀划分为非重叠区块，然后随机对区块进行采样。
以遮蔽比例75%为例，它先在输入图像中掩蔽75%的随机区块，编码器只在可见的25%区块子集上运行，这样就可以只用非常少的计算和显存，来训练非常大的编码器。
然后解码器将可见的token和掩码token组合，并向所有token中添加位置嵌入，通过预测每个掩蔽区块的像素值来重建图像信号。
这样一来，在预训练时解码器可以独立于编码器，从而可以用非常轻量级解码器实验，大量减少预训练时间。
另一个特点则是对输入图像的高比例进行遮蔽时，自监督任务效果非常好。
AMiner,让AI帮你理解科学！https://www.aminer.cn
在这里插入图片描述

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
AMiner推荐论文：Masked Autoencoders Are Scalable Vision Learners

论文链接： https://www.aminer.cn/pub/618ddb455244ab9dcbda8f5f?f=cs作者先将图像均匀划分为非重叠区块，然后随机对区块进行采样。以遮蔽比例75%为例，它先在输入图像中掩蔽75%的随机区块，编码器只在可见的25%区块子集上运行，这样就可以只用非常少的计算和显存，来训练非常大的编码器。然后解码器将可见的token和掩码token组合，并向所有token中添加位置嵌入，通过预测每个掩蔽区块的像素值来重建图像信号。这样一来，在预训练时解码器可以独立于编码器
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。