OSTrack: Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework论文和代码结构解读

Soonki

已于 2024-07-13 16:34:38 修改

阅读量445

点赞数 8

分类专栏： OT论文解读文章标签： transformer 深度学习人工智能目标跟踪

于 2024-07-13 16:28:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Soonki/article/details/140400994

版权

OT论文解读专栏收录该内容

16 篇文章 2 订阅

订阅专栏

论文地址
 代码地址

写在前面

OSTrack和ODTrack代码结构和内容基本一致，主要是采样方法有所区别

问题在哪？

Two-Stream框架提取的特征，对目标的敏感度不高。其提取的特征是在离线训练后确定的，因此Template和Search区域之间没有交互。同时，由于Target是在不断变化的，所以Two-Stream对前景和背景的区分能力是有限的。
Two-Stream大致就是Template和Search的Feature Map经过特征融合等操作之后，送入Head，这样的过程会浪费算力。

作者贡献

修改ViT作为Backbone，实现One-Stream的框架；
提出Candidate-Elimination模块，在Embedding中筛选Topk的值，消除无信息的背景信息，加强有信息的前景信息；
在Patch-Embedding阶段进行特征早融合；

具体方法

sample和ce_template_mask生成方法

在这里插入图片描述 Search、Template和ce_template_mask各采样一张，这里没什么难度的。
主要是ce_template_mask生成，在OSTrack中，作者使用的是 $CTR\_POINT$ 模式，说人话就是，如果以template的Feature为size生成的 $12 \times 12$ mask为全0矩阵，而中心点处 $\times 2$ 的位置为1，如图所示
CTR_POINT
不同于ODTrack，用的是 $GT\_BOX$ 模式，如上上张图中的第一个mask那般。

ce_keep_rate

ce_keep_rate在代码中有两个名字，另一个是keep_ratio_search，作用是在token的注意力中，将生成的embedding抽取topk，然后生成一个 $\times W \times ce \_ keep \_ rate, C]$ 的embedding
从这里可以看出， ce_keep_rate的作用就是把search的嵌入向量截断，只选取最大的一部分

什么是CE？

代码中使用了很多CE的前缀，比如，vit_ce、ce_block等，这就是单纯的使用了candidate_elimination模块，所以会加一个ce前缀

pipeline

如图，看起来和ODTrack几乎一样，但是确实一样，就是Template和Search的数量不同。
作者使用的是ViT作为backbone和CornerHead作为检测头
在这里插入图片描述
由于CSDN的图片尺寸限制，这里是压缩图，将就看一下，如果需要无损的svg图，点击下载

关注

8
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
OSTrack: Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework论文和代码结构解读

OSTrack和ODTrack代码结构和内容基本一致，主要是采样方法有所区别代码中使用了很多CE的前缀，比如，vit_ce、ce_block等，这就是单纯的使用了candidate_elimination模块，所以会加一个ce前缀。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。