ATOM:Accurate Tracking by Overlap Maximization
动机:
目前,目标跟踪领域的研究重点集中于分类准确度,这导致目标分类效果好的模型,目标估计(target state estimation)低于预期,相反一些以前的模型能够获得更好的目标估计效果,但这些模型的目标分类效果差。
主要贡献:
- 本文提出了一种新颖的跟踪架构,由目标估计和目标分类两部分组成。
- 在目标估计网络部分引入了IoU-Net(出自ECCV2018),使损失更加合理。
- 目标分类网络使用深度回归网络,由两个全卷积层组成,并提出新的专用在线训练的优化算法。
- 在新的大型TrackingNet数据集上,ATOM相对于之前的最佳方法实现了15%的相对增益,同时运行速度超过30 FPS。
网络结构:
将目标跟踪划分为了目标定位和形状估计两个子任务,并提出了两个模块来实现。分别为一个离线训练的目标估计模块,一个在线训练的目标分类(定位)模块。这两个任务被融合进了一个统一的网络结构。如下图:
和siamese network结构类似,上面是reference branch,也就是目标模板的分支,下面是test branch,也就是当前帧的分支。和基于siamese network的tracking不一样的是,在模板分支,最后生成的并不是一个feature map,而是在经过backbone提取特征之后,将特征经过"IoU Modulation"模块编码成了一个“调制向量”,用于后面每一帧bounding box的iou预测。test分支中,当前帧的图像经过backbone后分成了一个分类分支和一个iou预测分支,分类分支用于初步定位目标,得到初始的bounding box。iou预测分支结合前面生成的调制向量,推断bounding box的iou,并经过反向传播,优化bounding box使得iou最大化,以此得到精细的预测框。
橙色的resnet-18直接使用预训练模型,不经过fine-tune;蓝色的模块为目标估计模块,是经过线下训练得到的;绿色的为在线训练的目标分类模块,也就是说在tracking的时候才进行训练。
目标估计模块使用了iou-net的最大化iou来调整bounding box。网络结构如下:
这个网络其实就是整体结构图去除了test branch的分类分支。其推断流程大致如下:
- reference branch通过resnet-18作为backbone提取特征,然后对目标区域进行PrPool (iou-net里的),最后通过全连接层编码成两个modulation vector。这里只需要进行一次,也就是初始化的时候需要,后面推断的时候就只需要用到保存下来的modulation vector了。
- test brach也是先用resnet-18对当前帧提取特征,而后对bounding box进行PrPool得到固定尺寸的特征图。这里的bounding box是classifier那边得来的一个大概的框。
- 使用reference branch生成的两个vector分别对两个特征图进行channel-wise multiplication,也就相当于channel维度上的attention。
- 通过几个全连接层得到预测的iou。
- 对iou求bounding box的梯度,经过几次迭代,调整bounding box最大化iou,得到精细的预测框。
前面讲的模块的作用是输入一个粗糙的bounding box,通过iou分支优化,得到精细的预测框。但是这个粗糙的bounding box怎么来的呢,也就是文章的另一个主要部分,目标分类(粗定位),如下图的红色框部分。
这里的classifier是一个两层的全卷积网络,通过这个分类头,输出一个置信度图,即可确定目标的大致位置。这里的classifier是在线训练的,也就是在做tracking的时候才临时训练的。
因为tracking是一个target-specific的任务而不是class-specific的任务,他没有预定义的类别,而只有实体的概念,跟踪的类别是可以任意的。
Tracking流程:
- 对于第一帧,模板分支产生调制向量,快速训练classifier。
- 对于当前帧,提取特征,经过classifier确定位置,再结合前一帧的bounding box形状,生成当前帧的初始bounding box。
- 将bounding box传入iou predictor产生预测的iou。
- 通过最大化iou,来优化bounding box,经过几次迭代产生当前帧的预测框。
- 预测下一帧,至步骤2
步骤2中,作者发现根据位置信息,结合随机的形状生成的多个初始化bounding box能够更好的避免局部最优。这样,也就是通过优化多个bounding box,并取出iou最高的三个bounding box,取平均得到最后的预测。
总结:
提出了一种新颖的跟踪架构,其中包含用于目标估计和分类的显式组件。估计组件在大规模数据集上进行离线训练,以预测目标和边界框估计之间的 IoU 重叠。我们的架构通过执行特征调制来集成目标特定的知识。分类组件由两层全卷积网络头组成,并使用专门的优化方法进行在线训练。在四个跟踪基准上进行了综合实验。我们的方法提供了准确的目标估计,同时对场景中的干扰对象具有鲁棒性,在所有四个数据集上的性能都优于以前的方法。