Abstract:
基于模板的判别跟踪器由于其鲁棒性,是目前主要的跟踪范式,但仅限于边界框跟踪和有限范围的转换模型,这降低了其定位精度。我们提出了一种鉴别的单镜头分割跟踪器d3s,它缩小了视觉目标跟踪和视频目标分割之间的差距。单热网络采用两个具有互补几何性质的目标模型,一个对广泛的变换不变,包括非刚性变形,另一个假设刚性对象同时实现高鲁棒性和在线目标分割。在没有对每个数据集进行微调和只进行分割训练作为主要输出的情况下,D3S在VOT2016、VOT2018和GOT-10k基准测试上优于所有跟踪器,并且性能接近跟踪网上最先进的跟踪器。D3S在视频对象分割基准上优于领先的分割跟踪器SiamMask,其性能与顶级视频对象分割算法相当,同时运行速度快一个数量级,接近实时。PyTorch的实现可以在这里找到:https://github.com/alanlukezic/d3s
1. Introduction
视觉目标跟踪是计算机视觉的核心问题之一。最常见的公式考虑在给定一个训练图像的每一帧报告目标位置的任务。目前,在评估[22,24]中表现最好的主要跟踪范式是相关边界框跟踪[11,3,33,2,54,28],其中由多通道矩形模板表示的目标通过模板和搜索区域之间的互相关进行定位。
最先进的基于模板的跟踪器应用了一个有效的蛮力搜索的目标定位。这种策略适用于低维变换,如平移和尺度变换,但对于更一般的情况,例如引起长宽比变化和旋转。作为一种折