Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking
这一篇是中国科学技术大学 周文罡 老师团队的作品,2021 CVPR ORAL
1. Motivation
In video object tracking, there exist rich temporal contexts among successive frames, which have been largely overlooked in existing trackers.
在视频目标跟踪中,连续帧间存在着丰富的时间上下文,但是现有的跟踪器大多忽略了这一点。
2. 主要贡献
- 使用Siamese-like 跟踪pipeline,将transformer的encoder 和 decoder 结构分割成两个并行的分支
3. 主体设计
主体框架: