南理工&上海AI Lab提出Uniform Masking，为基于金字塔结构的视觉Transformer进行MAE预训练！...

最新推荐文章于 2024-04-14 20:14:28 发布

我爱计算机视觉

最新推荐文章于 2024-04-14 20:14:28 发布

阅读量550

点赞数 1

文章标签：计算机视觉机器学习人工智能深度学习 java

本文链接：https://blog.csdn.net/moxibingdao/article/details/125093339

版权

关注公众号，发现CV技术之美

本篇文章分享论文『Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality』，南理工&上海AI Lab提出Uniform Masking，为基于金字塔结构的视觉Transformer进行MAE预训练！

详细信息如下：

论文链接：https://arxiv.org/abs/2205.10063
项目链接：https://github.com/implus/UM-MAE

摘要

Masked AutoEncoder（MAE）最近通过一种优雅的非对称编码器-解码器设计引领了视觉自监督领域的发展趋势，该设计显著优化了预训练的效率和微调精度。值得注意的是，非对称结构的成功依赖于视觉Transformer（ViT）的“全局”特性，ViT的自注意机制基于离散图像块的任意子集。

然而，目前尚不清楚如何在MAE预训练中采用基于金字塔的高级ViT（如PVT、Swin），因为它们通常在“局部”窗口中引入操作，因此很难处理部分视觉token的随机序列。在本文中，我们提出了统一掩蔽（Uniform Masking，UM）策略，成功地实现了基于金字塔的具有局部性的VIT的MAE预训练（简称“UM-MAE”）。

具体而言，UM包括一个统一采样（Uniform Sampling，US），它从每个2×2网格中严格采样1个随机patch，然后是一个二次掩蔽（Secondary Masking，SM），它将已采样区域的一部分（通常为25%）随机掩蔽为可学习token。US在多个非重叠的局部窗口中保留了等效元素，从而顺利支持流行的基于金字塔的VIT；由于本文的方法减少了阻碍语义学习的像素恢复预任务的难度，因此SM设计用于更好的可转移视觉表示。作者证明了，UM-MAE显著提高了预训练的效率，在下游任务中保持有竞争力甚至更好的微调性能。

Motivation

自监督学习（SSL）使用辅助任务从大规模未标记数据中挖掘自己的监督，并学习可转移到下游任务的表示。SSL首先通过GPT和BERT的“屏蔽自动编码”解决方案在自然语言处理（NLP）领域显示出巨大的潜力。这些技术通过学习基于可用上下文预测删除的数据部分，革新了NLP的范式。

受BERT成功的启发，视觉界最近对模仿其公式（即masked autoencoding）进行图像理解引起了极大的兴趣。MAE中最有影响力的设计之一是非对称编码器-解码器结构。与接收整个patch token序列的解码器部分不同，编码器部分仅将可见图像patch（通常仅占总patch的25%）作为输入。有趣的是，这种设计不仅显著降低了训练前的复杂性&

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
南理工&上海AI Lab提出Uniform Masking，为基于金字塔结构的视觉Transformer进行MAE预训练！...

关注公众号，发现CV技术之美本篇文章分享论文『Uniform Masking: Enabling MAE Pre-training for Pyramid-based Vision Transformers with Locality』，南理工&上海AI Lab提出Uniform Masking，为基于金字塔结构的视觉Transformer进行MAE预训练！详细信...
复制链接

扫一扫