论文题目: Fast Online Object Tracking and Segmentation: A Unifying Approach
概述
- multi-task learning, 同时实现VOT和VOS。
- 只需要单一的bounding box来做初始化,就可以在跟踪过程中实时的输出分割掩码。速度35fps。
- 不需要在线微调。
在SiamRPN++的基础上(SiamMask使用的是ResNet50作为backbone,这个与SiamRPN++相同),设计了语义分割分支,输出精确的分割掩码,可以用来代替原先的目标框。而且在完成跟踪任务的同时,也实现了VOS任务。
和SiamFC做对比
SiamFC | SiamMask | |
---|---|---|
multi-task | Tracking only | Tracking & Segmentation |
backbone | Alexnet | ResNet-50 |
Loss function | logistic loss | Logistic loss + cross-entropy + smooth L1 |
predicted box | Axis-aligned box | minimum bounding rectangle(最小外包矩形) |
speed | 58fps | 35fps |
网络结构
在做correlation之前,和SiamFC是一样的,区别在于,correlation操作使用的是11256的卷积核,输出的是1717256的特征图(SiamFC输出的是17171,直接做预测)
两分支的Loss相当于是SiamFC+ mask分支,三分支的Loss相当于MaskRPN + mask分支。
分割分支的设计
这块是本文的一大 创新点,分割部分的设计只有两层网络,而且分割分支的输入也是将模板分支和检测分支的feature map同时输入进去进行编码的,这样一来,如果以其它目标作为template,那么相应的,mask也会变成对应的目标的掩码。
为了能使分割分支输出比较精确的结果,作者使用了下图的refinement module,使用了多个尺度的特征图融合,来得到mask的输出。