【自监督论文阅读笔记】Green Hierarchical Vision Transformer for Masked Image Modeling

        本文提出了一种 使用分层Vision Transformer (ViTs) ,例如Swin Transformer [43],进行 掩码图像建模(MIM)的有效方法,允许分层ViT 丢弃掩码patches,只对可见patches 进行操作

        本文的方法包括两个关键部分

        首先,对于窗口注意力window attention,本文按照分而治之策略 设计了一个 组窗口注意力Group Window Attention方案。为了减轻自注意力 相对于 图像块数量的 二次复杂度组注意力鼓励uniform partition 一致的划分,使得每个任意大小的局部窗口内的可见小块 可以 以相同的大小分组,然后在每个组内执行掩码的自注意力。

        其次,本文通过 动态规划算法 进一步改进分组策略,以最小化 分组块上 注意力的总体计算成本。因此,MIM现在可以以一种 绿色高效的方式 分层ViTs上 工作。例如,本文可以将训练分层ViT 的速度 提高约2.7倍,并将GPU内存使用量减少70%,同时仍能享受ImageNet分类上的竞争性能 和 下游COCO目标检测基准上的优势。

绿色:GPU内存使用量减少)


Introduction:

        受掩码语言建模 (MLM) [50, 51, 13, 5] 在自然语言处理 (NLP) 中的巨大成功 和 Vision Transformer (ViT) [15, 43, 60, 69] 的进步的推动,掩码图像建模(MIM)作为一种有前途的计算机视觉(CV)自监督预训练范式出现。 MIM 通过掩码预测 从未标记数据中学习表示,例如,预测离散的 tokens[2]、隐特征 [73、62、1] 或 随机掩码输入图像块的原始像素 [22、66]。其中,代表作 Masked Autoencoder (MAE) [22] 表现出具有竞争力的性能和令人印象深刻的效率

        本质上,MAE 为 MIM 提出了一种 非对称的编码器-解码器架构,其中编码器(例如,标准 ViT 模型 [15])仅在可见块上运行,轻量级解码器恢复所有块以进行掩码预测

        一方面,非对称的编码器-解码器架构 显著降低了 预训练的计算负担。另一方面,MAE 仅支持 各向同性的 ViT [15] 架构作为编码器,而 大多数现代视觉模型 采用层次结构 [37,25,43],部分原因是 需要处理视觉元素的尺度变化

        事实上,层次结构 局部归纳偏差 在各种 需要 不同级别或尺度的 表示 来进行预测的 CV 任务中至关重要,包括图像分类 [25] 和 目标检测 [19]。然而,如何将 分层的视觉转换器(例如 Swin Transformer [43])集成到 MAE 框架中仍然不是很简单

        此外,尽管 SimMIM [66] 的工作已经探索了用于 MIM 的 Swin Transformer,但它在可见和掩码块上都运行,并且与 MAE 相比,计算成本很高。作为一个具体的例子,本文发现即使是基本尺寸的 SimMIM 模型也无法在具有 8 个 32GB GPU 的单台机器上进行训练,更不用说更大的尺寸了。计算负担使得更广泛的研究人员难以深入这一研究领域,更不用说模型开发过程中的碳排放量了。

        为此,本文本着绿色 AI [55, 67] 的精神,努力为具有层次模型的 MIM 设计一种新的绿色方法。本文的工作重点是将 MAE 的非对称的编码器 - 解码器架构扩展到分层视觉转换器,特别是代表性模型 Swin Transformer [43],以便 仅对可见块 进行有效的预训练。本文确定主要障碍是 局部窗口注意力的限制。尽管在分层视觉转换器中广泛使用,但 局部窗口注意力 不能很好地与随机掩码配合使用,因为它创建了无法并行计算的 各种大小的 局部窗口

        本文首次尝试解决这个缺点。本文的方法在概念上很简单,由两个部分组成

        首先,在分而治之的原则的指导下,本文提出了一个 Group Window Attention 方案,首先将 具有 奇数可见块的 局部窗口 划分为 几个相等大小的组,然后在每个组内 应用 掩码注意力 masked attention。

        其次,本文将上述组划分 制定为 一个约束优化问题,其目标是找到一个组划分,以 最小化 对分组tokens的注意力 的计算成本。受 动态规划 [4] 概念 和 贪心原理 的启发,本文提出了一种 最优分组算法,该算法 自适应地 选择 最优组大小 并将 局部窗口 划分为 最少数量的组

        本文的方法是通用的不会对主干模型的架构进行任何修改,这样我们就可以与 在可见和掩码patches上运行的基线进行对应的比较。在本文的实验评估中,观察到本文的方法需要的训练时间大大减少,消耗的 GPU 内存也少得多,同时性能与基线相当。具体来说,使用 Swin-B [43],与基线 SimMIM 相比,本文的方法只需要一半的训练时间和大约 40% 的 GPU 内存消耗,同时在 ImageNet-1K 上实现 83.7% 的 top-1 微调精度[ 54] 这与 SimMIM 相当。

(apple-to-apple comparisons :对两个东西的各个方面作一一对应的比较)


Contributions:

        1. 本文设计了一个绿色的层次 Vision Transformer,用于掩码图像建模,倡导一种更实用的方法,大大提高了效率

        2. 如图2所示,本文

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值