©PaperWeekly 原创 · 作者 | Jason
研究方向 | 计算机视觉
摘要
最近,掩蔽图像建模(MIM)为视觉 Transformer 的自监督预训练提供了一种新的方法。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。
在本文中,作者提出了一种新的分层视觉 Transformer HiViT(Hierarchy ViT 的缩写),它在 MIM 中既具有高效性,又具有良好的性能。关键是删除不必要的“局部单元间操作”,产生出结构简单的分层视觉 Transformer ,其中 mask-units 可以像普通视觉 Transformer 一样序列化。实验结果研究表明,HiViT 在全监督、自监督和迁移学习方面具有优势。特别是,在 ImageNet-1K 上运行 MAE 时,HiViT-B 比 ViT-B 的准确度提高了 0.6%,比 Swin-B 的速度提高了 1.9 倍,性能提高可以推广到检测和分割的下游任务。
论文标题:
HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling
论文地址:
https://arxiv.org/abs/2205.14949
Motivation
在过去十年中,深度神经网络一直是深度学习的基础,并推动了计算机视觉、自然语言处理等研究领域的发展。最近,计算机视觉界见证了从语言模型移植而来的视觉 Transformer 的出现,它取代了卷积神经网络的主导地位。Transformer 具有建立长期特征依赖关系的能力,这自然有利于视觉识别,尤其是在长距离关系很重要的情况下。
根据是否使用多分辨率特征图方面,目前主要有两类视觉 Transformer,即普通视觉 Transformer 和层次视觉 Transformer。虽然后者被认为可以捕获视觉信号的性质(大多数基于卷积的模型都使用了层次结构),但通常使用了一些空间局部操作(即,带有移动窗口的早期自注意)。当需要灵活操作 token 时,这些模型可能会遇到困难。一个典型的例子是掩蔽图像建模(MIM),这是一种最新的预训练视觉 Transformer 的方法——图像块的随机部分从输入中隐藏,分层模型很难确定每对 token 是否需要留下。
本质上,这是因为层次视觉 Transformer 在 masking units 之间使用了非全局操作(例如,窗口注意)。因此,与可以序列化所有加速 token 的普通视觉 Transformer 不同,层次视觉 Transformer 必须保持二维结构,在整个编码器中保留掩蔽 token。因此,分级 Transformer 的训练速度比普通 Transformer 慢 2 倍。
在本文中,作者首先将层次视觉 Transformer 中的操作分为“单元内操作”、“全局单元间操作”和“局部单元间操作”。作者注意到,平面视觉 Transformer 仅包含“单元内操作”(即 patch 嵌入、层归一化、MLP)和“全局单元内操作”(即全局自注意力),因此可以丢弃单元的空间坐标,并且可以将单元序列化以进行高效计算,如 MAE。这就是说,对于层次视觉 Transformer 来说,是“局部单元间操作”(即,移位窗口自注意力、patch 合并)需要基于单元的空间坐标进行额外判断,所以阻碍了序列化和移除 mask 单元。
本文的一个关键观察结果在于,“局部单元间操作”对识别性能的贡献不大——真正有意义的是层次设计(即