通过优化ViT结构和训练策略,我们可以提高模型的性能和计算效率,增强模型对局部信息的捕捉能力。同时解决一些原有模型存在的问题。
比如原始的ViT模型在处理高分辨率图像时,由于自注意力机制的计算复杂度与序列长度相关,会导致较高的计算成本。通过对ViT进行改进,我们就可以减少参数量和计算量。
这类改进不仅能够更高效地处理图像数据,同时还能增强ViT在各种视觉任务中的适用性。因此,为了让模型更加高效和适用于实际应用,研究者们已经提出不少值得学习的ViT改进方案。比如基于全新残差注意力机制的ReViT。
本文介绍9种最新的ViT改进方案,配套模型与开源代码都整理了,希望可以为同学们提供新的思路和方法。
论文和代码需要的同学看文末
ReViT
ReViT: Enhancing Vision Transformers with Attention Residual Connections for Visual Recognition
方法:论文引入了一种创新的残余注意力视觉变换器(ReViT)网络,通过将残余注意力学习整合到视觉变换器(ViT)架构中,来增强对视觉特征的提取。该方法有效地传输和累积来自查询和键的注意力信息,跨越连续的多头自注意力(MHSA)层。这种残余连接防止了低级视觉特征的减少。此外,它通过减缓注意力机制的全球化,在学习新特征时赋予模型利用先前提取的特征的能力。
创新点:
-
基于残差注意力模块的ViT架构&