[Real-Time MDNet]ECCV2018论文阅读笔记

最新推荐文章于 2020-10-14 22:29:18 发布

gagajian

最新推荐文章于 2020-10-14 22:29:18 发布

阅读量983

点赞数 2

文章标签：目标跟踪计算机视觉

本文链接：https://blog.csdn.net/sinat_31184961/article/details/86602349

版权

Real-Time MDNet (ECCV2018) 论文地址 代码

写在前面

这篇论文的作者之一Bohyung Han是MDNet，TCNN的作者。这篇论文从题目中也可以看到，是一个加速了的MDNet，总体网络结构和MDNet一样，就是加了一个RoIAlign层，把从卷积层输出的特征压成了 $3 * 3$ 的，这样就加快了速度。并且他们的损失函数使用了两个损失项，一项是对于某个类的前景背景分类损失，一个是类之间的分类损失，通过这个提升了网络的精度，得到了加快的MDNet，并且精度几乎和原始的MDNet一样。

Motivation

在目标跟踪领域，利用深度学习的方法以牺牲时间为代价来获得高精度结果，MDNet的提出很大程度提高了目标跟踪的精度，但是MDNet很难区分未见过的物体，特别是这个物体和目标有相似的语义。而且目前的这些网络其实用的分类的数据集，这样就造成了网络只能有效的做前景背景的区分，但是很难去辨别两个物体之间的差距。

Contribution

他们使用了RoIAlign技术来加快网络的特征提取，并且保持了网络的精度，提出了一个实时的跟踪算法；
他们使用了Multi-task的损失函数，（1）区分目标和背景；（2）区分物体实例；
比MDNet快了25倍，几乎保持了一样的精度。

Algorithm

这篇文章的网络结构如下：
在这里插入图片描述
网络一共有三个卷积层+一个自适应的RoIAlign层+三个全连接层。其中前三层的参数跟VGG-M一样，三个全连接层参数随机初始化。一张输入图像，在经过三个卷积层提取特征后，进入了自适应的RoIAlign层提取RoI，这个操作减少了很多时间。然后提取的RoI传入下面的两个全连接层，这两个全连接层的输出是二值化的，代表这个proposal是前景和背景的score。与MDNet一样，最后一个全连接层被分为D个branch ( $fc6^1 -fc6^D$ )，每一个分支代表一个一个domain，也就是一个minibatch中的一个视频序列。（上图从第一个全连接层就开始分成三个，但是论文里只提到了最后一层分成D个，大概这图也只是示意，并不是分开的意思把～）

Adaptive RoIAlign

因为直接在第三层出来的特征上做RoIAlign太粗糙了，第三层输出的特征太少了，所以他们把第二个卷积层后面的Maxpooling层删掉了，然后还在第三层上做了一个加大的卷积操作，主要功能就是放大conv3的尺寸，感兴趣的可以看参考文献[1]。
在这里插入图片描述
这里的自适应其实是指在做RoIAlign时的步长，他们提出如果RoIAlign步长大于feature map，那就会丢掉很多信息，所以把步长都设成了 $[\frac{w}{w'}]$ ， $w$ 是conv3出来特征图的维度， $w^{'}$ 是最终得到的RoI维度， $[\cdot]$ 是向下取整，这里是 $7 * 7$ 。所以这个RoIAlign就是自适应的了，文章表明这个管用可能是因为在跟踪任务中，一点小的调整可能对最终跟踪结果影响很大。

Instance Embedding（Pretraining）

这边就是将实例的损失加入总的损失函数中，这里的想法就是将其他domain的前景目标加入到某个特定的domain中，获得更加具有语义区分度的跟踪器。主要的做法如下，对于一个属于Domain d的图片 $x^d$ 和它的bbox，得到一个输出如下：
$f^d = [\phi^1 (x^d; R),\phi^2 (x^d;R),...\phi^D(x^d;R)]\in R^{2*D}$
就是将每个 $f c 6$ 的输出都连接起来，其中 $\phi^d(\cdot ;\cdot )$ 只有两个值，表示这个目标是前景还是背景。
然后根据以上输出就可以计算一个前景背景分类损失 $\sigma_{cls}$ 和实例分类损失 $\sigma_{inst}$ ：
$[\sigma_{cls}(f^d)]_{ij} = \frac{exp({f_{ij}}^d)}{\sum_{k=1}^2exp({f_{ij}}^d)}$
$[\sigma_{inst}(f^d)]_{ij} = \frac{exp({f_{ij}}^d)}{\sum_{k=1}^Dexp({f_{ij}}^d)}$
其实从上面两个式子也可以看出，上一个是为了得到当前目标在当前Domain中被分类为前景的概率占总的概率；下一个是得到当前目标在当前Domain中分类的score与它在所有Domain中的score和之间的比例。这个网络的损失函数就是把这两项加起来：
$L = L_{cls}+L_{inst}$
其中 $L_{cls}$ 和 $L_{inst}$ 如下：
$L_{cls} = -\frac{1}{N}\sum_{i=1}^N \sum_{c =1}^2 [y_i]_{c\hat{d}(k)} \cdot log([\sigma_{cls}({f_i}^{\hat{d}(k)})]_{c\hat{d}(k)})$
$L_{inst} = -\frac{1}{N}\sum_{i=1}^N \sum_{d =1}^D [y_i]_{+d} \cdot log([\sigma_{inst}({f_i}^{d})]_{+d})$