兼具Swin和ViT的优势！可用于MAE预训练的超简单层次Transformer结构

最新推荐文章于 2025-03-05 11:17:11 发布

PaperWeekly

最新推荐文章于 2025-03-05 11:17:11 发布

阅读量1.8k

点赞数

文章标签：算法 python 计算机视觉神经网络机器学习

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/125139041

版权

HiViT是一种新的分层视觉Transformer，结合了Swin Transformer的层次结构和ViT的高效性，尤其适合掩蔽图像建模（MIM）。通过移除“局部单元间操作”，HiViT在MIM预训练中实现了比Swin Transformer快近2倍的速度，同时在ImageNet-1K上保持了高精度。在多个视觉识别任务上，HiViT表现出优越的性能和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

©PaperWeekly 原创 · 作者 | Jason

研究方向 | 计算机视觉

摘要

最近，掩蔽图像建模（MIM）为视觉 Transformer 的自监督预训练提供了一种新的方法。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token，这要求编码器是普通视觉 Transformer（例如 ViT），但是分层视觉 Transformer（例如 Swin Transformer）在形成视觉输入方面具有潜在更好的特性。

在本文中，作者提出了一种新的分层视觉 Transformer HiViT（Hierarchy ViT 的缩写），它在 MIM 中既具有高效性，又具有良好的性能。关键是删除不必要的“局部单元间操作”，产生出结构简单的分层视觉 Transformer ，其中 mask-units 可以像普通视觉 Transformer 一样序列化。实验结果研究表明，HiViT 在全监督、自监督和迁移学习方面具有优势。特别是，在 ImageNet-1K 上运行 MAE 时，HiViT-B 比 ViT-B 的准确度提高了 0.6%，比 Swin-B 的速度提高了 1.9 倍，性能提高可以推广到检测和分割的下游任务。

论文标题：

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling

论文地址：

https://arxiv.org/abs/2205.14949

Motivation

在过去十年中，深度神经网络一直是深度学习的基础，并推动了计算机视觉、自然语言处理等研究领域的发展。最近，计算机视觉界见证了从语言模型移植而来的视觉 Transformer 的出现，它取代了卷积神经网络的主导地位。Transformer 具有建立长期特征依赖关系的能力，这自然有利于视觉识别，尤其是在长距离关系很重要的情况下。

根据是否使用多分辨率特征图方面，目前主要有两类视觉 Transformer，即普通视觉 Transformer 和层次视觉 Transformer。虽然后者被认为可以捕获视觉信号的性质（大多数基于卷积的模型都使用了层次结构），但通常使用了一些空间局部操作（即，带有移动窗口的早期自注意）。当需要灵活操作 token 时，这些模型可能会遇到困难。一个典型的例子是掩蔽图像建模（MIM），这是一种最新的预训练视觉 Transformer 的方法——图像块的随机部分从输入中隐藏，分层模型很难确定每对 token 是否需要留下。

本质上，这是因为层次视觉 Transformer 在 masking units 之间使用了非全局操作（例如，窗口注意）。因此，与可以序列化所有加速 token 的普通视觉 Transformer 不同，层次视觉 Transformer 必须保持二维结构，在整个编码器中保留掩蔽 token。因此，分级 Transformer 的训练速度比普通 Transformer 慢 2 倍。

在本文中，作者首先将层次视觉 Transformer 中的操作分为“单元内操作”、“全局单元间操作”和“局部单元间操作”。作者注意到，平面视觉 Transformer 仅包含“单元内操作”（即 patch 嵌入、层归一化、MLP）和“全局单元内操作”（即全局自注意力），因此可以丢弃单元的空间坐标，并且可以将单元序列化以进行高效计算，如 MAE。这就是说，对于层次视觉 Transformer 来说，是“局部单元间操作”（即，移位窗口自注意力、patch 合并）需要基于单元的空间坐标进行额外判断，所以阻碍了序列化和移除 mask 单元。

本文的一个关键观察结果在于，“局部单元间操作”对识别性能的贡献不大——真正有意义的是层次设计（即