单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking

zz的大穗禾

已于 2022-07-03 23:15:45 修改

阅读量1.6k

点赞数 1

分类专栏： SOT 论文阅读文章标签： transformer 深度学习人工智能

于 2022-07-03 23:13:24 首次发布

本文链接：https://blog.csdn.net/qq_42312574/article/details/125573773

版权

论文阅读同时被 2 个专栏收录

28 篇文章 10 订阅

订阅专栏

SOT

18 篇文章 10 订阅

订阅专栏

文章侧重

这篇文章重点是引入Transformer作为特征提取增强模块。 既是用自注意力对backbone提取的特征进行增强，利用交叉注意力机制使得Template的特征和Search Region的特征交叉增强，有助于后面目标定位。
几个注意点：

由于这篇文章只是将Transformer用于增强特征，所以在实验部分，这篇文章分别将该特征模块集成到两个Tracking pipeline中——SiamFC、DiMP，比如目标定位的方法、训练策略、超参数设定就应用这两个框架中本来的设置。
Ecoder和Decoder都只有一层，摒弃了原有Transformer的堆叠结构，且它们的自注意力机制的参数共享，作者认为这样的设计是为了使输入Encoder和Decoder的patch 映射到相同的特征空间，有利于交叉注意力机制的应用 而多层堆叠会将template feature和search feature映射到不同的特征空间。
摒弃了原有Transformer中的前馈神经网络。作者认为前馈神经网络的参数过多可能导致过拟合问题，而在文章的消融实验中证明去除前馈神经网络的模型在测试集上表现更好。
摒弃了原有Transformer中的多头注意力机制，只用到单头注意力。因为作者在实验中发现，增加多头机制不会显著改善效率，Head Number从1到4，测试集上AO增加0.6%，速度下降10fps。

网络结构

在这里插入图片描述
如图所示，Template Features 【这里的Template实际上有20个，这个参数是在消融实验中验证能达到最高的精度。】和 Search Features是初步经过Backbone（ResNet50）生成的特征，经过Encoder会生成Encoded Features和目标相关的Masks，再将其作为Decoder的输入，在Search Feature上面利用交叉注意力机制，输出Decoded Feature。
其中，Encoded Features包含了多个Template自注意力的特征增强结果，不同Template的特征也有交叉增强。
Masks是在Template Features上以目标GroundTruth为中心的高斯型mask，为了增强目标的特征，而抑制目标周围相似物体的干扰。
Decoded Feature 是将Template Features、Mask与Search Features进行交叉注意力操作，即使用Template Features、Masks对Search Features进行增强，对Search Features中与目标有关的特征进一步突出。

具体的Encoder和Decoder的结构

如下图：
在这里插入图片描述

模型的推理过程

上面的网络结构只包含了特征增强的部分，具体实现中与现有SiamFC【孪生网络框架】、DiMP【相关滤波框架】集成。

TrSiam：剪裁Encoded Features作为CNN核，与Decoded Feature做互相关（与SiamFC一致）。
TrDiMP：根据Encoded Features生成一个判别性的CNN核，与Decoded Feature卷积生成响应图。

要QQ每天都开开心心~

zz的大穗禾

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
单目标追踪——【Transformer】Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking

这篇文章重点是引入Transformer作为特征提取增强模块。既是用自注意力对backbone提取的特征进行增强，利用交叉注意力机制使得Template的特征和Search Region的特征交叉增强，有助于后面目标定位。几个注意点：如图所示，Template Features 【这里的Template实际上有20个，这个参数是在消融实验中验证能达到最高的精度。】和 Search Features是初步经过Backbone（ResNet5......
复制链接

扫一扫

专栏目录