Quasi-Dense Similarity Learning for Multiple Object Tracking 详细解读

CV矿工

已于 2022-08-11 13:24:23 修改

阅读量853

点赞数 1

分类专栏： MOT 文章标签：目标跟踪深度学习计算机视觉

于 2022-05-09 15:39:34 首次发布

本文链接：https://blog.csdn.net/ZauberC/article/details/124666043

版权

MOT 专栏收录该内容

8 篇文章 3 订阅

订阅专栏

文章目录

摘要（abstract）
介绍（Introduction）
相关工作（related work）
理论（Methodology）
experiment

摘要（abstract）

相似度学习一直是MOT任务里最重要的任务。但此论文之前的算法多使用稀疏的GT用来训练网络得到相似度。这样忽略了大量的有用信息。此算法提出了一种使用densly samples hundreds of region proposals来学习相似度计算。我们称他为Quasi-Dense Similarity Learning。简称QDTrack。算法在多个数据集都产生了很好的结果。具体指标就不赘述了。

介绍（Introduction）

在这里插入图片描述
之前的工作存在只利用IOU或者中心距离等其他像素级别的先验知识进行追踪，这表明确实只要目标间检测的空间信息足够精确，确实可以有好的结果。但是这些方法大多只适合一些简单的场景，当目标拥挤遮挡下，位置信息很容易产生误导。为此一些方法就会尝试引入运动估计或位移回归来精确位移估计。

但是机器不像人，人可以很清楚的通过外貌信息来分别人，但是对于计算机，只有外貌带来的特征往往不会被处理的有效，因此会对外貌信息做一些搜索区域的限制等处理。

过去工作，相似度学习知识是作为一个检测后的事后阶段，并且只是用稀疏GT框作为训练样本。事实上，如果目标的表示被尽可能的学到，那么就使用embedding的最近邻方法也可以关联和区别实例。

除了GT框，其实密集的检测框也是有监督价值的，接近GT框的检测框，可以提供类似正样本的参考。相反接近背景的可以作为负样本的参考。

作者提出的QDTrack密集匹配一对图片上的上百个感兴趣区域，通过对比损失进行学习参数，密集采样会覆盖图片上大多数的信息区域。通过对比学习，一个样本会被训练同时区分所有的Proposal，相较于只使用GT标签来训练监督，更加的强大且增强了实例的相似度学习。对于消失轨迹的处理，会将背景作为一类，从而进行双向softmax增强一致性。实验采用使用轻量级embedding提取器和残差网络的Faster R-CNN来构建QDTrack模型。

并且不同于其他工作依赖运动模型和位移预测，将外貌相似度作为第二补充，QDTrack直接从密集连接对比对中学习实例相似度，且最终关联步骤只是简单的最近邻搜索。

理论（Methodology）

作者定义了数据关联时三种匹配：

密集匹配：匹配所有像素点的候选边界框
拟密集匹配：考虑信息丰富区域的可能目标候选间的匹配
稀疏匹配：只考虑GT标签作为匹配候选

object detection

论文中使用带有FPN的Faster R-CNN作为检测器。整个任务可以优化为一个多任务损失函数：
在这里插入图片描述
RPN loss为 $\mathcal L_{rpn}$ , 分类损失为 $\mathcal L_{cls}$ ，回归损失为 $\mathcal L_{reg}$ , 和原论文相同，两个超参默认为1。

Quasidense similarity learning

在这里插入图片描述
如上图，一张关键图 $I_1$ 用于训练，随机选择一个时序邻域作为推理图片 $I_2$ ，邻域距离限制为k ∈ [ − 3 , 3 ]个时间间隔。使用RPN从两张图片产生RoI，通过RoI Align从FPN来获得不同尺度的相应特征图。增加了一个轻量的embedding head，平行于原始的bounding box head，用于提取RoI的特征embedding。若RoI和某个ID的IoU大于 $α_1 = 0.7$ ,则定义为该ID的正样本。若小于 $\alpha_2=0.3$ 则定义为负样本。不同帧上的RoI关联相同的ID则互相为正样本，否则互为负样本。

假设关键图上有V个样本用于训练，推理图上有K个样本用作对比目标。对于每个训练样本，使用带非参数softmax和交叉熵来优化特征embedding：

在这里插入图片描述

$v,k^{+}$ $k^-$ 为训练样本，正目标样本，负样本的特征embedding。总体损失为所有训练样本的损失的均值，上面只显示了一个样本的一般情况即只有一个相关的正样本情况下的损失。不同于过去的只是用GT框来进行稀疏匹配学习实例相似性，这里要匹配这对图上的所有RoI，即 $I_1$ 上的每个样本都要匹配 $I_2$ 上的样本，如此，关键帧上的训练样本在推理帧上就不一定只有一个正目标，所以上述公式可以改写为：