【目标跟踪】|Mixformer

最新推荐文章于 2024-06-21 09:46:31 发布

rrr2

最新推荐文章于 2024-06-21 09:46:31 发布

阅读量835

点赞数

分类专栏：目标跟踪文章标签：目标跟踪深度学习计算机视觉

本文链接：https://blog.csdn.net/qq_35608277/article/details/125711744

版权

目标跟踪专栏收录该内容

21 篇文章 16 订阅

订阅专栏

问题

以往跟踪框架存在的问题：（1）需要多个组件构成；（2）CNN-based方法缺乏全局建模能力；（3）Transformer-based方法仍依赖CNN提取特征，并在高层特征上进行注意力建模。为了克服上述问题，作者把特征提取和信息基础进行统一。首先，使特征提取更具体到跟踪目标，提取更多目标判别性特征。其次，将目标信息更广泛地集成到搜索区域中，从而更好的捕获它们之间的相关性。最后，获得了一个更加紧凑和优雅的跟踪框架，无需显式的集成模块。

方法

提出MAM（Mixed Attention Module）同时进行进行特征提取和特征交互。
提出一种自定义的非对称注意方案，通过消除不必要的交叉注意力区域。让模型能在保证计算成本的基础上引入多个模板处理对象形变。
提出了一个基于分数的目标模板更新机制，保证多目标模板输入的鲁棒性。
在这里插入图片描述
这部分的特殊之处有两点：（1）去除了PE过程，专用DW-Conv进行处理，同时也是由DW-Conv生成了qkv，而不是以往的线性层；（2）不同于TransT和Stark的不对称注意力，看上图的黄色虚线部分即可知，模板特征是不接收搜索特征的信息的。
在这里插入图片描述
为了保证引入的在线模板的质量，作者设计了SPM模块，通过一个可学习的Score Token来连接模板和在线模板之间的信息交互，最后输出一个分数估计，文中认为大于0.5的是可靠模板。同时训练损失函数采用交叉熵损失。
在这里插入图片描述

在imagenet-22K进行预训练