MOTS：PointTrack翻译理解。《Segment as Points for Efficient Online Multi-Object Tracking and Segmentation》

最新推荐文章于 2024-05-25 09:44:30 发布

加油记笔记的小码农

最新推荐文章于 2024-05-25 09:44:30 发布

阅读量2.1k

点赞数

分类专栏： MOTS

本文链接：https://blog.csdn.net/qq_41708756/article/details/107324101

版权

MOTS 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

PointTrack（一种分割为点云的方法，用于高效在线多目标追踪和分割）

相关主题：Multi-Object Tracking and Segmentation

论文：PointTrack(ECCV2020 ORAL): Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

论文链接：https://arxiv.org/pdf/2007.01550.pdf

洪白话：初探MOTS领域，以自己的理解翻译了这篇论文，如有翻译或者理解不得当之处请多多指教。另外，如需转载或者引用请附上出处，谢谢。

摘要

目前的多目标跟踪分割方法遵循检测跟踪的模式，采用卷积方法进行特征提取。但是，由于受固定感受野的影响，基于卷积的特征提取不可避免地将前景特征和背景特征混在一起，导致后续实例关联的模糊性。在本文中，我们提出了一种高效的基于分割的实例embeddings学习方法，通过将紧凑的图像表示转换为无序的二维点云表示。我们的方法生成了一个新的逐点跟踪范式，即区分性的实例embeddings是从随机选择的点中学习而不是从图像学习。此外，将多种信息性数据模式被转换为逐点表示，以丰富逐点特征。由此产生的在线MOTS框架名为PointTrack，大大超过了包括3D跟踪方法在内的所有最先进的方法(提高了5.4%的MOTSA并比MOTSFusion快18倍，接近实时的速度(22 FPS)。对三个数据集的评估证明了我们的方法的有效性和效率。此外，基于对当前MOTS数据集缺少拥挤场景的观察，我们构建了一个更具挑战性的MOTS数据集，名为APOLLO MOTS，具有更高的实例密度。APOLLO MOTS和我们的代码都可以通过https://github.com/detectRecog/PointTrack公开获得。

图1.比较我们的PointTrack和最先进的MOTS方法在指标SMOTSA(左)和id switches(右)。在左边的子图中，填充符号和空心符号分别表示车辆和行人的结果。

洪白话：具体指标SMOTA的介绍见论文“MOTS：Multi-Object Tracking and Segmentation”。

1.介绍

多目标跟踪是计算机视觉领域的一项基础性工作，在自动驾驶和视频监控等领域有着广泛的应用。最近MOT方法[4,6,42]主要采用基于检测的跟踪范式，通过数据关联算法将检测到的边界框跨帧链接起来。由于关联的性能在很大程度上依赖于鲁棒相似度度量，而鲁棒相似度度量由于目标之间频繁的遮挡而难以得到广泛的关注。MOT领域挑战仍然存在，尤其是拥挤的场景。最近，多目标跟踪和分割(MOTS)任务[35]在MOT任务进行衍生，同时考虑实例分割和跟踪。由于实例mask精确地描绘了可见对象的边界和自然地分离邻接物，MOTS不仅提供了像素级分析，更重要的是鼓励学习更多有区别的实例特征，从而比基于边界盒(bbox)的方法更便于鲁棒的相似度度量。

不幸的是，当前的MOTS方法很少处理如何从分割（segments）中提取实例特征embeddings。Track R-CNN[35]用3D卷积扩展了Mask RCNN并在bbox推荐中采用ROI Align来提取实例embeddings。为了在特征提取中关注分割区域，Porzi等[28]提出mask pooling替代ROI align。然而，受卷积感受野（洪白话：摘要中提到的，CNN网络卷积感受野固定且参数共享）的影响，前景特征和背景特征仍然混杂在一起，不利于识别特征的学习。因此，目前的MOTS方法虽然采用先进的分割网络来提取图像特征，但没有学习到具有区别性的实例embeddings，而具有区别性的实例embeddings是鲁棒实例关联的关键，导致跟踪性能有限。

本文提出了一种简单高效的基于分割mask的实例embeddings学习方法。基于PointNet[29]的成功，其可以从不规则格式的三维点云中直接聚合特征，我们将二维图像像素视为无序的二维点云，以点云处理的方式学习实例embeddings。具体地说，对于每个实例，我们分别为前景分割部分和周围区域建立两个单独的点云。在每个点云中，我们进一步提出结合不同形式的点向特征来实现统一的、环境感知的实例embeddings。通过这种方法，将我们提出的实例embeddings和任何实例分割方法（洪白话：pointtrack使用的是spatialembeddings分割模型）相结合，可以很容易地建立这种新颖的逐点跟踪范式。在相同分割结果的基础上，通过与当前MOTS方法的比较，验证了我们提出的实例embeddings方法的有效性。如图1右子图所示，我们的方法有效地减少了id switches。跨不同数据集的评估(参见表3,5中的PointTrack*)也证明了我们提出的实例embeddings具有很强的泛化能力。此外，为了提高MOTS的实用性，我们改进了目前最先进的单阶段实例分割方法——空间嵌入[24]实现时间一致性，并建立了新的MOTS框架PointTrack。我们提出的框架首先实现了接近实时的性能，同时在KITTI MOTS上以很大的优势优于所有最先进的方法，包括3D跟踪方法(见图1左侧的子图)。

此外，为了便于更好的评估，我们构建了一个更拥挤、更具挑战性的MOTS数据集，名为APOLLO MOTS（洪白话：阿波罗？哈哈），基于公共的ApolloScape数据集[13]。APOLLO MOTS具有和KITTI MOTS类似的帧数，但是两倍多的追踪和汽车注释(见表1)。我们相信APOLLO MOTS可以进一步促进MOTS的研究。

我们总结了我们的主要贡献如下:

-我们提出了一种高效的方法，通过将紧凑的图像表示分解成无序的二维点云来学习分割上的具有判别性的实例Embeddings。
-引入了一个新的在线MOTS框架PointTrack，它比最先进的方法更有效。
-我们创建了APOLLO MOTS，一个更具挑战性的数据集，比KITTI移动的实例密度高68%。
-跨三个数据集的评估显示，PointTrack在很大程度上优于所有现有的MOTS方法。另外，PointTrack可以显著减少id switches。

2.相关工作

基于检测的追踪。基于检测的MOT方法首先检测感兴趣的目标，然后通过数据关联将目标连接成轨迹。数据关联可以在二维图像平面[4,6,7,14,33,42,38]或三维世界空间[1,8,10,20,25,39]上完成。ATOM[7]引入了一种新的跟踪架构，该架构通过预测目标对象与估计的包围盒的重叠，由专用的目标估计和分类组件组成。FAMNet[6]开发了一种端到端跟踪架构，其中特征提取、关联估计和多维分配是共同优化的。大多数3D跟踪方法[25,32]基于3D运动线索合并轨迹。其他方法[10,23,18]进一步对物体进行三维重建，提高跟踪性能。

基于分割的追踪。与在拥挤的场景中可能会严重重叠的2D边界盒不同，每个像素的分割可以精确地定位物体。最近，实例分割被用来提高跟踪性能[19,27,26,12,28]。在[26]中，Osep等人提出了一种model free的多目标跟踪方法，该方法使用分类不确定的图像分割方法来跟踪目标。TrackRCNN通过3D卷积拓展Mask R-CNN来融入时间信息并使用ROI Align提取实例embeddings，从而进行跟踪。MOTSNet[28]为Mask-RCNN提出了一个Mask Pooling，以改善随着时间的推移的对象关联。STE[12]引入了一种新的时空embeddings损失来生成时间一致的实例分割，并将所有像素在分割上的平均embeddings作为实例嵌入来进行数据关联。由于二维或三维卷积获得的特征不利于具有区分性的实例embeddings学习，因此与之前的方法不同，我们的PointTrack将二维图像像素作为无序的二维点云，以点云处理的方式学习实例embeddings。

MOTS数据集。KITTI MOTS[35]使用密集的实例分割注释扩展了流行的KITTI MOT数据集。除了KITTI MOTS，流行的数据集(如ApolloScape数据集[13])也提供了视频实例分割标签，但实例在时间上不连续。与KITTI MOTS相比，ApolloScape提供了更拥挤的场景，更难以追踪。基于这一观察结果，我们使用与KITTI MOTS相同的度量以半自动注释方式构建了Apollo MOTS。

3.方法

在本节中，我们首先阐述PointTrack如何将不同的数据模式转换为统一的逐像素样式，并在2D分割上学习环境感知的实例embeddings M。然后，实例分割的细节将被详细介绍。

3.1环境感知的实例embeddings提取（Context-aware instance embeddings extraction）

（因从笔记中复制过来，符号太多段落采用图片形式展现）

图2：PointTrack的概述。对于输入图像，PointTrack通过实例分割网络获得实例分割结果。然后，PointTrack将分割及其周围环境视为两个2D点云（采样编码），分别学习它们上的特征。MLP表示Leaky ReLU的多层感知器。

之前的工作[32,37,8]已经证明了位置、外观、大小、形状和附近物体等特征对于跟踪是有用的。直观地，PointTrack可以通过学习以下数据模式来总结所有上述特征:(i)偏移量Offset;(2)颜色Color;(3)类别Category;(iv)位置Position。下面，我们制定了这些数据模式的公式，并展示了PointTrack如何从它们学习环境感知的embeddings。

Offset。我们定义每个前景点Fi和每个环境点Ei的偏移量数据如下:

偏移量数据，由从实例中心P到它们自身的向量表示，表示分割结果中的相对位置。前景点的偏移向量提供了有关实例的规模和形状的基本信息。

Color。我们考虑RGB通道，用公式表示颜色数据如下:

当颜色数据与偏移量数据结合时，可以从前景点学习具有鉴别性的外观特征，从环境点学习周围的颜色分布。消融研究(见从表6)可以看出，颜色数据对于精确的实例关联至关重要。

Category。为了进一步将环境信息合并到点特征中，我们对包括背景类在内的所有语义类标签进行了编码(假设Z类包含背景)到固定长度的one-hot向量中。然后，对于选定的环境点Ei，同时收集one- hot类别向量进行特征提取。假设Ei属于Ci类别，则类别数据被定义如下：

通过PointTrack联合学习类别数据和偏移量数据，可以学习强环境特性。当当前实例与其他实例相邻时，对于位于附近实例上的Ei，类别数据YEi和偏移量数据OEi告诉PointTrack附近实例的相对位置和语义类别，这是实例关联的有力线索。可视化(见图6)也证实了在学习区分实例嵌入时，附近实例上的环境点很重要。

Position。由于之前的三种数据方法都侧重于提取Cb周围的特征，而不考虑Cb在图像平面上的位置，因此我们将Cb的位置编码为位置embeddings MP。和[34]一样，我们将Cb (4-dim)的位置嵌入到一个高维向量(64-dim)中，便于通过计算不同波长的cosine和sine函数更好地学习。

式中+表示连接，MLP表示多层感知器。

实例关联。为了产生最终的跟踪结果，我们需要执行基于相似性的实例关联。给定分割结果和，以及他们的embeddings和，相似性S通过下面公式计算：

其中D为欧氏距离，U为Mask IOU，默认设置为0.5。如果一个活动的跟踪没有为最近的帧更新，我们将自动结束该跟踪。对于每一帧，我们根据Eq.(5)计算所有活动track的最近embeddings与当前帧中所有实例embeddings的相似性。和[35]一样，我们设置了一个相似性阈值用于实例关联，实例关联只允许当相似度大于。匈牙利算法[17]被利用来执行实例匹配。

3.2具有时序种子一致性的实例分割（Instance segmentation with Temporal Seed Consistency）

不同于以往的方法[35,28]，采用了很大的努力去适应MASK RCNN在MOTS框架中，PointTrack构建在一个名为SpatialEmbedding[24]的最先进的onestage实例分割方法。空间嵌入在没有bbox推荐的情况下进行实例分割，因此运行速度比两阶段方法快得多。如图3所示，空间嵌入遵循具有两个独立解码器的编解码器结构:(i)种子解码器;(ii) inst解码器。给定在时间T的输入图像，种子解码器预测所有语义类的seed maps（洪白话：不如car，person两类两张seedmap）。此外，inst解码器预测了表示像素的聚类边界的sigma map和表示指向相应实例中心的向量的offset map。然后，从中采样实例中心，像素根据根据每个实例的学习聚类margin被分配到分割结果中（洪白话：其实是每次从seed map得分高的点作为实例中心，由offset map确定改点偏移后的实际中心点，然后利用代表margin的sigma参与计算每个像素点的得分，得分大于一定阈值的属于该中心点的实例。然后再在seed map中寻找下一个得分最高的点，直到seed map中>0.5的点的数量少于一个界限，如128）。当应用于MOTS通过对分割失败案例的研究，我们发现连续帧之间的seed map预测不一致，导致了许多false positives and false negatives（洪白话：FP错报，FN漏报）。因此，我们在训练阶段引入时间一致性损失，以提高seed map预测的质量。首先，我们还要给SpatialEmbeddings输入在T-1时刻的图像来预测seed maps。于是，和之间的光流O由来估计。随后，我们合成变形的seed maps，通过用光流O来扭曲，我们的时间一致性损失表示为：