ATOM视频目标跟踪论文笔记


1. 论文基本信息


2. 论文想要解决的问题

大多数目标跟踪算法都采用多尺度搜索的方式来确定物体的bounding-box,这样的方式仍然不够精确。作者认为,目标的估计实际上是一项复杂的任务,需要利用到被跟踪物体的高级知识,仅仅利用多尺度搜索的方法是不够的。

另外,作者分析了相关滤波算法和近期出现的基于RPN跟踪算法,指出相关滤波算法缺乏灵活的尺度适应(特别是仅仅某一个方向的尺度变化),而现有的RPN跟踪算法缺乏足够强大的判别能力,作者列举了两个代表性的算法(UPDT for 相关滤波,DaSiamRPN for RPN跟踪),如下图所示:
在这里插入图片描述

这里需要注意的是:在论文的语境中target estimation主要指对跟踪矩形框的估计,当前颇具代表性的就是RPN系列的跟踪方法中的目标回归部分。


3. 核心思想

论文受IoUNet(Acquisition of Localization Confidence for Accurate Object Detection, ECCV 2018)的启发,提出了一种overlap最大化的训练思路,即使得跟踪算法bounding-box与ground-truth的bounding-box之间的重叠率能够最大。

这里简要介绍一下IoUNet,它首先被旷视科技在ECCV 2018上提出,以解决目标检测中分类得分与定位得分不一致的问题。如下图所示:
在这里插入图片描述
在上图中,黄颜色的矩形框表示ground-truth,红色和绿色的矩形框都是由FPN检测算法给出的检测结果(两者的分类置信得分不同)。以第一幅图像为例,绿色矩形框的分类置信得分低于红颜色的矩形框,因此绿色检测结果在传统的检测过程中会被排除掉,然而实际上绿色矩形框更加贴合ground-truth(表现在它的IoU指标更好)。


从上图可以看出,仅仅依赖图像分类得分是不够的,这也就引出了将IoU作为training优化目标的问题。

然而,IoUNet是针对目标检测场景而言的,它属于class-specific,而跟踪任务属于target-specific,因此论文并没有完全照搬IoUNet目标检测的思想,而是提出了自己的方法:引入目标分类模块,是跟踪器具有更加强大的判别能力。

论文的总体网络结构如下图所示:
在这里插入图片描述
从上图可以看出,论文的网络结构中主要包含两个模块:目标估计模块(target estimation module,对应蓝色区域)和目标分类模块(target classification module,对应绿色区域)。两者的分工如下:

  • 目标估计模块用于计算IoU,论文首先对该模块进行off-line training,在testing阶段该模块就可以对候选样本进行IoU的预测。
  • 目标分类模块用于计算候选样本的置信度,即某一个候选样本是目标的置信得分是多少。

4. 提出的方法

前面已经提及,论文的网络结构中主要包含两个模块,目标估计模块(target estimation module)和目标分类模块(target classification module),其中前者用off-line的方式进行训练,后者用on-line的方式进行训练。对于这两个模块,均使用了相同的主干网络(论文用的是ResNet-18)。

目标估计模块对应的网络称为IoU-predictor网络,该网络的训练方式是off-line的,其输入有四个:

  • 当前帧的图像特征
  • 在当前帧中估计的bounding-box
  • 参考帧图像的特征
  • 在参考帧中估计的bounding-box

输入了上述四种信息后,IoU-predictor network会输出预测的IoU得分。这就是目标估计模块(target estimation module)的基本功能定义。

目标分类模块对应的网络是Classifier网络,该网络的训练方式是on-line的,其功能非常明确,即根据提取的CNN特征预测目标置信得分,从而将目标判别出来。在on-line training和testing期间,该网络均通过全卷积(fully convolutional)的方式实现,以达到高效和覆盖的目的。

4.1 目标估计(Target estimation)

作者认为,IoUNet不能直接用于视频目标跟踪任务的目标估计,这是因为跟踪任务相比目标检测任务有以下两点不同:

  • 在跟踪任务中,算法对目标缺乏先验知识,也并不知道目标属于何种类别。
  • 被跟踪的目标,不一定属于算法学习过的物体类别。

进一步,论文还指出,IoU预测任务具有高级特性,不能指望可以在一帧一帧的画面上进行在线训练网络,因此需要进行off-line training,从而学习到通用的特征表示。

在视频跟踪任务中,由于跟踪器缺乏目标物体的先验知识,此时的挑战在于:如何构造一个IoU predictor架构,使得它能够有效地利用参考图像的信息(这里参考图像可以理解为第一帧的目标图像)。作者在论文中还特别提及:他们做过一些实验表明简单地将参考图像特征与当前帧图像特征进行融合会限制跟踪器的性能。 这里的简单融合应该是指单一利用固定的learning rate进行特征数据加权融合的方式,在遇到目标显著形变或者受到严重干扰时会引入噪声。基于此,作者在论文中提出了modulation-based的网络结构,只要给出一个参考图像(可以理解为初始帧目标图像),该网络可以对任意的一个物体来预测IoU值。

IoU-predictor网络的完整结构如下图所示:
在这里插入图片描述
从上图可以看出,IoU-predictor网络主要包含两个分支:Reference分支和Test分支。其中Reference分支主要用于保存目标物体的外观模型。Test分支主要用于提取当前帧的特征以及IoU数值的计算。两个网络属于非对称结构,主要表现在Reference分支中PrPool层前面是一个Conv层,而在Test分支中PrPool层前面放置了两个Conv层。这一点与孪生网络跟踪算法不同。

在Rederence分支中,网路分别提取ResNet的Block 3和Block 4的特征,并将它们各自送到一个Conv层,得到两个特征图,然后根据输入的参考图像指定的区域,在特征图上进行Pr pooling操作,得到两个统一大小的局部特征图(关于Pr pooling,可以参考本人的另一篇博客文章:https://blog.csdn.net/discoverer100/article/details/90519423 )。该网络最终的输出是两个modulation vector c ( x 0 , B 0 ) c\left(x_{0}, B_{0}\right) c(x0,B0),这个向量的size为 1 × 1 × D z 1 \times 1 \times D_{z} 1×1×Dz,其内部元素均为正值。

在Test分支中,网络分别提取ResNet的Block 3和Block 4的特征,并将它们各自送到两个Conv层,得到Block 3的特征图和Block 4的特征图,然后根据输入的区域,在特征图上进行Pr pooling操作,得到统一大小的局部特征图。这里需要关注的是两个channel-wise乘法( ⊗ \otimes 符号),该操作符连接了Test分支所提取的特征和Reference分支输出的modulation vector(可以理解为对特征通道进行加权)。Test分支的最终输出就是IoU得分,其公式为:

(1) IoU ⁡ ( B ) = g ( c ( x 0 , B 0 ) ⋅ z ( x , B ) ) \operatorname{IoU}(B)=g\left(c\left(x_{0}, B_{0}\right) \cdot z(x, B)\right) \tag {1} IoU(B)=g(c(x0,B0)z(x,B))(1)

其中, c ( x 0 , B 0 ) c\left(x_{0}, B_{0}\right) c(x0,B0)表示Reference分支最终输出的modulation vector, z ( x , B ) z(x, B) z(x,B)表示Test分支经过Pr Pooling之后的特征数据, g g g表示IoU predictor模块,其内部包含三个卷积层。公式(1)中各个变量的标注如下图所示:
在这里插入图片描述

4.2 Training

根据公式(1),可以对网络进行end-to-end的训练,其主要思想是使IoU预测误差降到最低,训练的采样主要是通过标注的图像对来进行。

论文在training过程中用到了如下三个数据集:

  • 14
    点赞
  • 61
    收藏
    觉得还不错? 一键收藏
  • 17
    评论
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值