单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

zz的大穗禾

于 2023-08-29 17:13:42 发布

阅读量1.1k

点赞数

分类专栏：论文阅读 SOT 文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42312574/article/details/132558288

版权

目录

文章侧重点
网络结构
实验
- - 无motion token的消融实验
  - SwinTrack的消融实验

论文链接：https://arxiv.org/abs/2112.00995
代码链接：https://github.com/LitingLin/SwinTrack

文章侧重点

以目标检测领域的Swin Transformer为基础，构建全Transformer结构的目标追踪算法——Swin-Track
构建了Motion Token 在追踪中考虑到了目标运动信息，在增加计算复杂度的情况下提升性能。
将原有的Transformer中的absolute位置编码替换成untied positional encoding。
用varifocal loss替换交叉熵损失函数。

网络结构

请添加图片描述

输入：当前帧图片（裁剪尺度=4）、目标模板（裁剪尺度=2）
Transformer-based Feature Representation Extraction：
1. 该部分是特征提取部分，用到了Siamese-based的网络结构，旨在提取相同特征空间下的目标模板特征和Search Region的特征。便于之后目标融合。
2. 论文中的实验用的是Swin Transformer-Tiny（ pre-trained with ImageNet-1k）和Swin Transformer-Base（pre-trained with ImageNet-22k）作为特征提取网络。
Transformer-based Feature Fusion：
特征融合一共有两步：Vision特征融合（Encoder的实现）+运动特征融合（Decoder的实现）。
Vision特征融合：
1. 将目标模板特征和Search Region的特征拼接为 $f_m$ 作为输入。
2. 沿用了Transformer中的Encoder结构：Layer Norm (LN) + Multi-layers Self Attention (MSA) + Feed Forward Network (FFN)。这里直接用Self-Attention完成了特征增强和特征交互。
3. 公式表达：
  最后一步DeConcat直接将特征分离，就可以得到Search Region的特征。

运动特征融合：

Motion Token Construction ：

构建运动信息的Motion Token。将目标的历史轨迹表示为边界框（左上角坐标+右下角坐标，即x1y1x2y2）的集合: $o_{s_1}={(o_{s_1}^{x_1},o_{s_1}^{y_1},o_{s_1}^{x_2},o_{s_1}^{y_2})}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。