(arxiv2401) CrossMAE

最新推荐文章于 2024-08-05 18:14:11 发布

计算机科研狗@OUC

最新推荐文章于 2024-08-05 18:14:11 发布

阅读量310

点赞数 9

分类专栏：论文推介文章标签：深度学习计算机视觉图像分类无监测预训练

本文链接：https://blog.csdn.net/gaopursuit/article/details/137408258

版权

论文推介专栏收录该内容

76 篇文章 14 订阅

订阅专栏

论文介绍了一种新的预训练框架CrossMAE，通过改进MAE的自注意力机制，仅使用掩码和可见标记间的交叉注意力，显著提高解码效率。部分掩码策略和动态特征加权进一步提升了模型性能，实验显示CrossMAE在保持下游任务表现的同时，计算效率提升明显。

摘要由CSDN通过智能技术生成

作者团队来自加州大学伯克利分校（UC Berkeley）和加州大学旧金山分校（UCSF）。论文主要探讨了在MAE的解码中，图像patch之间的依赖性，并提出了一种新的预训练框架 CrossMAE。
论文的主要贡献包括：

提出了CrossMAE框架，其解码器仅利用掩码和可见标记之间的交叉注意力，而不使用掩码标记之间的自注意力。这种设计在不降低下游性能的情况下，提高了效率。
CrossMAE的设计允许仅解码一小部分掩码标记，这提高了预训练的效率。此外，每个解码器块现在可以利用不同的编码器特征，从而改善了表示学习。

贡献1：CrossMAE与MAE的对比如下图所示。MAE在decoder重建时，将 unmask 的 token恢复到图像中，整体进行self-attention计算，作者认为 masked token 彼此间也进行了attention计算，是没有必要的。所以，作者进行了改进，在解码器中将masked token 做为Q，unmasked token做为KV，进行cross attention计算。

在这里插入图片描述

贡献2： partial masking。作者只是随机挑选了一些 masked tokens 进行修复，这样会降低计算量，后面有实验分析。此外，作者还有一处改进，在编码器的各个 transformer block 之间动态学习了一个权重，对特征加权。这就有些像 layer attention。不过，这个改进并没有刻意的在引言里强调。

在这里插入图片描述
CrossMAE 比 MAE 提高了0.3%，而且只重建25%的token效果就已经非常好了，计算效率显著提升。

在这里插入图片描述

计算机科研狗@OUC

关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
(arxiv2401) CrossMAE

MAE在decoder重建时，将 unmask 的 token恢复到图像中，整体进行self-attention计算，作者认为 masked token 彼此间也进行了attention计算，是没有必要的。所以，作者进行了改进，在解码器中将masked token 做为Q，unmasked token做为KV，进行cross attention计算。不过，这个改进并没有刻意的在引言里强调。论文主要探讨了在MAE的解码中，图像patch之间的依赖性，并提出了一种新的预训练框架 CrossMAE。
复制链接

扫一扫

专栏目录