一、创新点:1.提出一个新的unified transformer tracker(UTT)来将SOT和MOT使用同一组框架解决。文中说是第一篇在both tasks 中端到端训练的跟踪模型
2.发明了一种新的高效的track transformer 来通过 traget feature和the tracking frame feature之间的关联(采用的全连接)来定位target.
3.通过和其他方法对比得到该方法有效性的结论。
二、为什么需要统一的框架:因为在实际应用中,一个统一的跟踪系统在很多领域是意义重大的。在AR/VR应用中,跟踪特定的或未见过的实例(例如个人的杯子)是与SOT有关,感知常规类别(例如人)的环境使用MOT相关的。维持两个独立的系统是非常昂贵的,所以统一跟踪系统的研究是很有必要的。
三、之前的统一框架:UniTrack是首次尝试(通过共享框架和融合多跟踪头),但由于头部设计和不同任务中训练数据集的差异,未能利用大规模的跟踪数据集进行训练。SOT的数据集在一个视频中仅仅包含单个目标的标注信息。MOT数据集(目标种类固定)但存在密集的目标标注。(就是单目标数据集就标一个目标,多目标有多个目标)
能在相同design中在SOT和MOT中跟踪目标的原因(不太懂和UniTrack的不同):1.在tracking frame 中利用以前的位置信息提供一个小的feature map proposal;2.之后将target 特征和1.中的相关联去更新目标表示(representation)和输出target位置。
后续的操作:更新后的target特征和新的search feature proposal(基于产生了的target位置)关联。这个步骤重复L次去refine target位置。具体操作看框架:
框架:
感觉看不懂的话就去看3.2,看完就感觉没啥了。
损失函数:(损失函数没细看)