​兼具Swin和ViT的优势!可用于MAE预训练的超简单层次Transformer结构

HiViT是一种新的分层视觉Transformer,结合了Swin Transformer的层次结构和ViT的高效性,尤其适合掩蔽图像建模(MIM)。通过移除“局部单元间操作”,HiViT在MIM预训练中实现了比Swin Transformer快近2倍的速度,同时在ImageNet-1K上保持了高精度。在多个视觉识别任务上,HiViT表现出优越的性能和效率。
摘要由CSDN通过智能技术生成

62522da8815334eb9831b2ef67caf5d5.gif

©PaperWeekly 原创 · 作者 | Jason

研究方向 | 计算机视觉

最近,掩蔽图像建模(MIM)为视觉 Transformer 的自监督预训练提供了一种新的方法。高效实现的一个关键思想是在整个目标网络编码器中丢弃掩蔽图像 patch 或 token,这要求编码器是普通视觉 Transformer(例如 ViT),但是分层视觉 Transformer(例如 Swin Transformer)在形成视觉输入方面具有潜在更好的特性。

在本文中,作者提出了一种新的分层视觉 Transformer HiViT(Hierarchy ViT 的缩写),它在 MIM 中既具有高效性,又具有良好的性能。关键是删除不必要的“局部单元间操作”,产生出结构简单的分层视觉 Transformer ,其中 mask-units 可以像普通视觉 Transformer 一样序列化。实验结果研究表明,HiViT 在全监督、自监督和迁移学习方面具有优势。特别是,在 ImageNet-1K 上运行  MAE 时,HiViT-B 比 ViT-B 的准确度提高了 0.6%,比 Swin-B 的速度提高了 1.9 倍,性能提高可以推广到检测和分割的下游任务。

1c8c3eb3c940a537baaaa8d62567ab71.png

论文标题:

HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling

论文地址:

https://arxiv.org/abs/2205.14949

d020ff12019ed7973828a8ddd0b485dc.png

Motivation

在过去十年中,深度神经网络一直是深度学习的基础,并推动了计算机视觉、自然语言处理等研究领域的发展。最近,计算机视觉界见证了从语言模型移植而来的视觉 Transformer 的出现,它取代了卷积神经网络的主导地位。Transformer 具有建立长期特征依赖关系的能力,这自然有利于视觉识别,尤其是在长距离关系很重要的情况下。

根据是否使用多分辨率特征图方面,目前主要有两类视觉 Transformer,即普通视觉 Transformer 和层次视觉 Transformer。虽然后者被认为可以捕获视觉信号的性质(大多数基于卷积的模型都使用了层次结构),但通常使用了一些空间局部操作(即,带有移动窗口的早期自注意)。当需要灵活操作 token 时,这些模型可能会遇到困难。一个典型的例子是掩蔽图像建模(MIM),这是一种最新的预训练视觉 Transformer 的方法——图像块的随机部分从输入中隐藏,分层模型很难确定每对 token 是否需要留下。

本质上,这是因为层次视觉 Transformer 在 masking units 之间使用了非全局操作(例如,窗口注意)。因此,与可以序列化所有加速 token 的普通视觉 Transformer 不同,层次视觉 Transformer 必须保持二维结构,在整个编码器中保留掩蔽 token。因此,分级 Transformer 的训练速度比普通 Transformer 慢 2 倍。

在本文中,作者首先将层次视觉 Transformer 中的操作分为“单元内操作”、“全局单元间操作”和“局部单元间操作”。作者注意到,平面视觉 Transformer 仅包含“单元内操作”(即 patch 嵌入、层归一化、MLP)和“全局单元内操作”(即全局自注意力),因此可以丢弃单元的空间坐标,并且可以将单元序列化以进行高效计算,如 MAE。这就是说,对于层次视觉 Transformer 来说,是“局部单元间操作”(即,移位窗口自注意力、patch 合并)需要基于单元的空间坐标进行额外判断,所以阻碍了序列化和移除 mask 单元。

本文的一个关键观察结果在于,“局部单元间操作”对识别性能的贡献不大——真正有意义的是层次设计(即

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值