【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

YoooooL_

已于 2022-10-19 11:36:56 修改

阅读量1.4k

点赞数

分类专栏：论文阅读笔记文章标签：深度学习人工智能论文阅读 transformer 计算机视觉

于 2022-10-18 17:29:50 首次发布

本文链接：https://blog.csdn.net/YoooooL_/article/details/127211357

版权

本文介绍了一种针对掩码图像建模的绿色高效方法，尤其适用于分层视觉Transformer，如Swin Transformer。通过组窗口注意力和动态规划的最优分组策略，减少了计算成本，提高了训练速度约2.7倍，同时降低了70%的GPU内存使用，保持了与基准模型相当的性能。这种方法解决了局部窗口注意力在随机掩码情况下的并行计算难题，为分层ViT的自监督学习提供了更环保的途径。

摘要由CSDN通过智能技术生成

本文提出了一种使用分层Vision Transformer (ViTs) ，例如Swin Transformer [43]，进行掩码图像建模(MIM)的有效方法，允许分层ViT 丢弃掩码patches，只对可见patches 进行操作。

本文的方法包括两个关键部分：

首先，对于窗口注意力window attention，本文按照分而治之策略 设计了一个组窗口注意力Group Window Attention方案。为了减轻自注意力相对于图像块数量的 二次复杂度，组注意力鼓励uniform partition 一致的划分，使得每个任意大小的局部窗口内的可见小块可以以相同的大小分组，然后在每个组内执行掩码的自注意力。

其次，本文通过动态规划算法进一步改进分组策略，以最小化 分组块上注意力的总体计算成本。因此，MIM现在可以以一种 绿色高效的方式 在分层ViTs上工作。例如，本文可以将训练分层ViT 的速度提高约2.7倍，并将GPU内存使用量减少70%，同时仍能享受ImageNet分类上的竞争性能和下游COCO目标检测基准上的优势。

（绿色：GPU内存使用量减少）

Introduction：

受掩码语言建模 (MLM) [50, 51, 13, 5] 在自然语言处理 (NLP) 中的巨大成功和 Vision Transformer (ViT) [15, 43, 60, 69] 的进步的推动，掩码图像建模（MIM）作为一种有前途的计算机视觉（CV）自监督预训练范式出现。 MIM 通过掩码预测从未标记数据中学习表示，例如，预测离散的 tokens[2]、隐特征 [73、62、1] 或随机掩码输入图像块的原始像素 [22、66]。其中，代表作 Masked Autoencoder (MAE) [22] 表现出具有竞争力的性能和令人印象深刻的效率。

本质上，MAE 为 MIM 提出了一种 非对称的编码器-解码器架构，其中编码器（例如，标准 ViT 模型 [15]）仅在可见块上运行，轻量级解码器恢复所有块以进行掩码预测。

一方面，非对称的编码器-解码器架构 显著降低了预训练的计算负担。另一方面，MAE 仅支持 各向同性的 ViT [15] 架构作为编码器，而大多数现代视觉模型 采用层次结构 [37,25,43]，部分原因是 需要处理视觉元素的尺度变化。

事实上，层次结构 和 局部归纳偏差 在各种需要不同级别或尺度的表示来进行预测的 CV 任务中至关重要，包括图像分类 [25] 和目标检测 [19]。然而，如何将分层的视觉转换器（例如 Swin Transformer [43]）集成到 MAE 框架中仍然不是很简单。

此外，尽管 SimMIM [66] 的工作已经探索了用于 MIM 的 Swin Transformer，但它在可见和掩码块上都运行，并且与 MAE 相比，计算成本很高。作为一个具体的例子，本文发现即使是基本尺寸的 SimMIM 模型也无法在具有 8 个 32GB GPU 的单台机器上进行训练，更不用说更大的尺寸了。计算负担使得更广泛的研究人员难以深入这一研究领域，更不用说模型开发过程中的碳排放量了。

为此，本文本着绿色 AI [55, 67] 的精神，努力为具有层次模型的 MIM 设计一种新的绿色方法。本文的工作重点是将 MAE 的非对称的编码器 - 解码器架构扩展到分层视觉转换器，特别是代表性模型 Swin Transformer [43]，以便 仅对可见块 进行有效的预训练。本文确定主要障碍是 局部窗口注意力的限制。尽管在分层视觉转换器中广泛使用，但局部窗口注意力 不能很好地与随机掩码配合使用，因为它创建了无法并行计算的各种大小的局部窗口。

本文首次尝试解决这个缺点。本文的方法在概念上很简单，由两个部分组成。

首先，在分而治之的原则的指导下，本文提出了一个 Group Window Attention 方案，首先将具有奇数可见块的局部窗口划分为几个相等大小的组，然后在每个组内应用掩码注意力 masked attention。

其次，本文将上述组划分制定为一个约束优化问题，其目标是找到一个组划分，以最小化对分组tokens的注意力的计算成本。受 动态规划 [4] 概念和 贪心原理 的启发，本文提出了一种 最优分组算法，该算法 自适应地选择最优组大小并将局部窗口划分为最少数量的组。

本文的方法是通用的，不会对主干模型的架构进行任何修改，这样我们就可以与在可见和掩码patches上运行的基线进行对应的比较。在本文的实验评估中，观察到本文的方法需要的训练时间大大减少，消耗的 GPU 内存也少得多，同时性能与基线相当。具体来说，使用 Swin-B [43]，与基线 SimMIM 相比，本文的方法只需要一半的训练时间和大约 40% 的 GPU 内存消耗，同时在 ImageNet-1K 上实现 83.7% 的 top-1 微调精度[ 54] 这与 SimMIM 相当。

（apple-to-apple comparisons ：对两个东西的各个方面作一一对应的比较）

Contributions：

1. 本文设计了一个绿色的层次 Vision Transformer，用于掩码图像建模，倡导一种更实用的方法，大大提高了效率。

2. 如图2所示，本文提

最低0.47元/天解锁文章

YoooooL_

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

为了减轻自注意相对于小块数量的二次复杂度，组注意鼓励均匀划分，使得任意大小的每个局部窗口内的可见小块可以以相等的大小分组，然后在每个组内执行掩蔽的自注意。例如，我们可以将训练分层vit的速度提高约2.7倍，并将GPU内存使用量减少70%，同时仍能享受ImageNet分类上的竞争性能和下游COCO对象检测基准上的优势。本文提出了一种使用分层Vision Transformer (ViTs) ，例如Swin Transformer [43]，进行掩码图像建模(MIM)的有效方法，允许。
复制链接

扫一扫