arXiv-2022-OSTrack:Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Frame阅读笔记

最新推荐文章于 2024-09-13 22:15:50 发布

菜菜子hoho

最新推荐文章于 2024-09-13 22:15:50 发布

阅读量3k

点赞数 2

分类专栏：目标跟踪之Transformer文献阅读文章标签：计算机视觉人工智能深度学习 transformer 目标跟踪

本文链接：https://blog.csdn.net/qq_41442511/article/details/126324764

版权

目标跟踪之Transformer文献阅读专栏收录该内容

12 篇文章 8 订阅

订阅专栏

动机：
当前流行的孪生的两个阶段的跟踪框架分成模板分支和搜索区域分支来提取特征，然后进行关系建模，因此提取的特征缺乏目标的感知性，对目标-背景的区分能力有限。

特点：
结合特征提取和关系建模，提出了一个简单、简洁、有效的单流一阶段跟踪框架，并提出了一种网内早期候选排除模块，使用ViT作为网络架构性能表现优异，速度高达105.4 FPS ViT。

OSTrack模型：
在这里插入图片描述
①联合特征提取和关系建模
该模型的输入为模板图像和搜索图像，他们被分割、展平和连接后才被一同馈送到Transform的编码器层，以此单流框架同时实现特征提取和关系建模。
为什么能同时实现特征提取和关系建模？
Transform中的自我注意可以描述为操作A：
在这里插入图片描述
注意力权重计算可以描述为：

自我注意操作A 可进一步描述为：

其中既包含了模板图像和搜索图像的自注意，也包含了两者的交叉注意，自注意作为提取的特征，交叉注意代表了两者之间的关系模型。
②早期候选淘汰
作者提出了一个早期候选消除模块，在ViT的早期阶段逐步消除属于背景的候选，以减轻计算负担并避免噪声背景区域对特征学习的负面影响。搜索区域的每个token可以被视为目标候选区域。
每一个模板token可以计算为：
在这里插入图片描述
表示模板区域和所有搜索token（候选区域）的相似关系。的第j个项表示和第j个候选token的相似性。
但此处并不是计算所有每个候选与所有模板部分相似度的和而是只计算和模板的中心区域。

索由于该算法采用ViT作为主体，采用多头注意，所以作者在此处将多个头的平均相似度作为目标和每个候选人的最终相似度得分。如果候选区域与目标的相似性得分相对较小，则该候选区域更有可能是背景区域。所以只保留中k个相似度最大的候选项(k为超参数，保持比ρ = k/n)，其余候选项被淘汰。该早期候选消除模块被插入到编码器层中的多头关注操作之后。此外，记录所有剩余候选的原始顺序，以便在最后阶段可以恢复。被淘汰的候选项将进行零填充。
经过早期候选消除模块的淘汰，最后恢复阶段的图片可以见下图：
在这里插入图片描述
③损失
经过了零填充后恢复的二维特征图会继续被输入到FCN中，该FCN由L（L=4）个Conv-BN-ReLU层组成，输出目标分类得分、局部偏移和归一化的边界框尺寸。

具有最高分类分数的位置被认为是目标位置，最终的目标包围盒为：
在这里插入图片描述
最终使用weighted focal loss损失，进行分类。对于ground truth 的中心 ˆP来说，ˆP等效于
低分辨率区域，其热力图可以使用高斯核生成
，σ是对象尺寸自适应标准偏差。高斯加权聚焦损耗可以表示为:

α和β是超参数，设置为α = 2，β = 4。
回归损失采用ℓ1 Loss 和 IoU loss，最终的损失计算为：
在这里插入图片描述
其中λiou = 2，λL1 = 5。
④实验
作者提出了具有不同输入图像对分辨率的两种变体，用于显示OSTrack的可伸缩性:

训练数据集：COCO , LaSOT, GOT-10k,TrackingNet 300 epochs
测试数据集：GOT-10k NFS UAV123 TNL2K LaSOT TrackingNet
结果图：
在这里插入图片描述