Transformer for visual tracking目标跟踪论文总结 -- CVPR 2021 ORAL

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking

这一篇是中国科学技术大学 周文罡 老师团队的作品,2021 CVPR ORAL

1. Motivation

In video object tracking, there exist rich temporal contexts among successive frames, which have been largely overlooked in existing trackers.
在视频目标跟踪中,连续帧间存在着丰富的时间上下文,但是现有的跟踪器大多忽略了这一点。

2. 主要贡献

  1. 使用Siamese-like 跟踪pipeline,将transformer的encoder 和 decoder 结构分割成两个并行的分支

3. 主体设计

主体框架:

在这里插入图片描述

创新点:

在这里插入图片描述

  1. 改变传统Transformer中的固有结构,受Siamese like 模型的影响,将encoder 和 decoder 分割成为平行的两个分支。
  2. Block Weight-sharing encoder及decoder 中的自注意力块共享权重,将模板和搜索区域嵌入到一个特征空间以方便进行 cross-attention 计算。
  3. Instance Normalization: 通过实例层面的归一化,保留有价值的图像振幅信息。
  4. Slimming Design 轻量化设计 去掉了全连接层并保持了single-head attention。

具体细节可以查看论文原文:Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking
或者这篇文章: https://blog.csdn.net/qq_39621037/article/details/115189929

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值