【每天一篇深度学习论文】区域与稀疏注意力融合:ViT的创新型架构

论文介绍

题目:

Fusion of regional and sparse attention in Vision Transformers

论文地址:

链接: https://arxiv.org/pdf/2406.08859

创新点

文章的主要创新点可以概括为以下几个方面:

  1. 融合区域和稀疏注意力:提出了一种新的注意力机制,称为Atrous Attention,它结合了区域注意力和稀疏注意力的优点,通过动态整合局部和全局信息,同时保持层次结构。

  2. Atrous Attention机制:受到atrous convolution(扩张卷积)的启发,提出了一种新的窗口注意力机制,该机制考虑了多个不同扩张率的窗口来计算注意力,从而在保持计算复杂度合理的同时,捕捉全局上下文和层次信息。

  3. 自适应融合不同分支的特征:开发了一种轻量级的门控操作,用于自适应地融合来自不同扩张层级的特征,提高了视觉模型的视觉表示能力。

  4. 共享MLP层:在并行注意力机制中应用共享的MLP(多层感知机)层,与传统的每个注意力操作后使用MLP层不同,这种设计减少了计算复杂度,并使模型学习更加容易。

  5. 并行Atrous Inverted Residual Convolution:将传统的深度可分离卷积替换为三个并行的、具有不同扩张率的atrous深度可分离卷积,并通过门控操作合并输出。

  6. ACC-ViT模型架构:基于上述提出的注意力和卷积块,设计了一种混合的、层次化的视觉变换器架构ACC-ViT,该架构在模型的不同阶段使用了不同扩张率的Atrous Attention。

  7. 性能提升:ACC-ViT模型在ImageNet-1K数据集上取得了约84%的准确率,并且模型参数少于28.5百万,超越了当时最先进模型MaxViT的性能,同时参数数量更少。

  8. 迁移学习实验:在医学图像数据集上进行迁移学习实验,ACC-ViT在多个指标上优于其他模型,显示了其在不同配置下的视觉表示的可转移性。

方法

模型总体架构

ACC-ViT模型的总体架构是一个层次化的混合视觉变换器,它通过结合区域和稀疏注意力机制来处理图像。模型的开始是一个卷积茎,用于下采样输入图像,以便进行自注意力计算。接着是四个ACC-ViT块,这些块通过堆叠Atrous卷积和Atrous注意力层来构建,每个块针对不同分辨率的特征图使用不同的扩张率。在这些块之后,模型使用全局平均池化和全连接层来完成分类任务。Atrous Attention是模型的核心,它通过多个不同扩张率的窗口计算注意力,以整合局部和全局信息,同时保持层次结构。此外,模型还采用了门控操作来自适应地融合不同层级的特征,以及共享MLP层来减少计算复杂度,这些设计使得ACC-ViT在保持性能的同时减少了参数数量和计算成本。

在这里插入图片描述

核心模块描述

ACC-ViT模型的核心模块包括以下几个关键部分:

  1. Atrous Attention模块:这是模型的创新点之一,它借鉴了扩张卷积(atrous convolution)的思想,通过在不同扩张率下计算窗口注意力,来捕捉图像中的局部和全局信息。这种设计使得模型能够在保持层次结构的同时,扩大感受野,从而更好地理解图像内容。

  2. 门控操作:这个模块是一个轻量级的自适应机制,它根据输入特征图计算出不同的门控权重,用于融合来自不同扩张层级的特征。这种设计允许模型动态地强调或忽略某些特征,从而提高模型对视觉信息的处理能力。

  3. 共享MLP层:与传统的ViT模型在每个注意力操作后使用独立的MLP层不同,ACC-ViT模型采用了一个共享的MLP层,用于处理所有并行注意力分支的输出。这种设计简化了模型结构,降低了计算复杂度,同时有助于模型学习更加高效。

  4. 并行Atrous Inverted Residual Convolution模块:这个模块是模型的另一个核心创新,它用三个并行的扩张卷积替换了传统的深度可分离卷积。这些扩张卷积具有不同的扩张率,能够捕捉不同尺度的特征,并通过门控操作合并结果,以实现特征的高效融合。

这些核心模块共同构成了ACC-ViT模型的骨架,使其在处理视觉任务时能够平衡局部细节和全局上下文,同时保持模型的参数效率和计算效率。

即插即用模块作用

Atrous Attention模块和并行Atrous Inverted Residual Convolution模块可以灵活地集成到不同的视觉模型中。以下是这些模块适用的任务和领域:

  1. 图像分类

    • 这些模块可以用于图像分类任务,提高模型对图像中不同区域特征的捕捉能力,从而提升分类的准确性。
  2. 目标检测和分割

    • 在目标检测和分割任务中,Atrous Attention可以帮助模型更好地理解图像中的目标和背景,而并行Atrous Inverted Residual Convolution可以捕捉多尺度的特征,这对于精确定位和分割目标至关重要。
  3. 医学图像分析

    • 文章中提到了在医学图像数据集上的迁移学习实验,表明这些模块在医学图像分析领域具有应用潜力,尤其是在病理图像识别和诊断方面。
  4. 遥感图像处理

    • 在遥感图像处理中,这些模块可以帮助模型识别和分析不同尺度的地物特征,适用于土地覆盖分类、城市规划和环境监测等任务。
  5. 视频分析

    • 对于视频内容理解,这些模块可以用于提取时空特征,适用于动作识别、视频分类和事件检测等任务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值