【每天一篇深度学习论文】特征融合——注意力融合

Better Rose

已于 2025-04-15 16:57:51 修改

阅读量1.2k

点赞数 30

分类专栏：深度学习文章标签：深度学习人工智能计算机视觉

于 2024-12-05 10:14:31 首次发布

本文链接：https://blog.csdn.net/Magnolia_He/article/details/144257641

版权

深度学习专栏收录该内容

37 篇文章

订阅专栏

论文介绍

题目：

Separable Self and Mixed Attention Transformers for Efficient Object Tracking

论文地址：

链接: https://openaccess.thecvf.com/content/WACV2024/papers/Gopal_Separable_Self_and_Mixed_Attention_Transformers_for_Efficient_Object_Tracking_WACV_2024_paper.pdf

创新点

论文提出了一种名为SMAT的轻量级目标跟踪架构，它利用可分离的自注意力和混合注意力变换器来有效地融合模板和搜索区域的特征，以生成更优越的特征编码，并通过对编码特征进行全局上下文建模来实现鲁棒的目标状态估计。SMAT在多个基准数据集上超越了相关轻量级跟踪器的性能，同时在CPU上以37帧每秒、GPU上以158帧每秒的速度运行，并具有3.8M的参数量。

高效的自注意力和混合注意力变换器架构：文章提出了一种基于变换器的轻量级跟踪架构，该架构利用可分离的混合注意力变换器来融合模板和搜索区域，以生成更优的特征编码。
全局上下文建模：所提出的预测头通过利用高效的自注意力块对编码特征进行全局上下文建模，以实现鲁棒的目标状态估计。
轻量级跟踪器的首次部署：文章首次同时部署了基于变换器的轻量级跟踪器的主干网络和头部模块。
性能和参数效率：所提出的轻量级跟踪器SMAT（Separable Self and Mixed Attention-based Tracker）在多个基准测试中超过了相关轻量级跟踪器的性能，同时在CPU上以37 fps的速度运行，在GPU上以158 fps的速度运行，并且只有3.8M的参数。
混合注意力Vision Transformer主干网络：文章采用了级联的卷积神经网络（CNN）和Vision Transformer（ViT）块，这种混合设计结合了卷积（学习空间局部表示）和变换器（建模长期依赖性）的优点，并且参数更少。
可分离自注意力变换器预测头：预测头有效地对编码特征进行全局上下文建模，使用可分离的自注意力单元，与完全基于卷积的方法相比，提高了定位精度。

方法

模型总体架构

这篇文章提出的模型SMAT（Separable Self and Mixed Attention-based Tracker）总体架构包含两个主要部分：一个是基于Vision Transformer的可分离混合注意力主干网络和一个基于自注意力的预测头。主干网络利用级联的CNN和ViT块来提取特征，并在ViT块中通过混合注意力机制融合模板和搜索区域的信息，以生成更优越的特征编码。

在这里插入图片描述