Summary - Segment as Points for Efficient Online Multi-Object Tracking and Segmentation-CSDN博客

本文链接：https://blog.csdn.net/MRMRWWW/article/details/107870186

Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang*, Huan Huang, Shilei Wen, Errui Ding, Liusheng Huang, Conference on Computer Vision and Pattern Recognition (ECCV) 2020

[paper] [code]

背景

目前的多目标跟踪与分割（MOTS）方法遵循检测跟踪 (tracking by detection) 的思想，采用卷积进行特征提取。然而，受固有的感受域的影响，基于卷积的特征提取不可避免地会混淆前景特征和背景特征，从而在后续实例关联中产生歧义。

文中提出了一种高效的方法，通过将紧凑的图像表示转化为无序的 2D 点云表示，从而基于分割 (base on segments) 学习实例嵌入 (instance embeddings)。此外，多种信息数据模态 (如 offset, color, category, position) 被转换成点表示，以丰富点的特征。由此得到一个 online MOTS 框架 PointTrack，以接近实时的速度（22fps）大大超过了包括3D跟踪在内的所有最新方法（比MOTSA高5.4%，比MOTSFusion快18倍）。

文章的贡献：

将紧凑的图像表示转化为无序的 2D 点云表示
提出了一个高效的框架 PointTrack
构建了一个称为 APOLLO MOTS 的数据集，具有更高的实例密度，挑战性更大
在 3 个数据集上评估了 PointTrack 的性能。实验显示 PointTrack 在速度、分割性能、泛化性能上都比现有 SOTA 方法更有优势，并且可以大大降低 id switches。

模型结构

在这里插入图片描述

Context-aware instance embeddings extraction

在提取逐点特征时，PointTrack 加入了多种模态的数据，分别为 offset, color, category, position。对于前景和背景的 2D 点云，如 fig 2，模型将他们在 2 个分支里分别处理后，再与 position encodeing 一起进行 concatenation，最后得到 instance embedding。

Instance association：为了得到最后的 tracking result，给定 segments $C_{S_i},C_{S_j}$ ，以及它们对应的 embeddings $M_i, M_j$ ，需要基于下面的相似度的度量 $S$ 进行 Instance association
$S(C_{S_i},C_{S_j})=-D(M_i, M_j)+\alpha*U(C_{S_i},C_{S_j})$
其中，D 是欧式距离，U 是 mask IOU，默认 $\alpha=0.5$ 。

Instance segmentation with Temporal Seed Consistency

在这里插入图片描述

PointTrack 使用了如 fig3 所示的 one-stage instance segmentation 方法 SpatialEmbedding。它有两个 decoder：seed decoder 和 inst decoder。

当作者将其用于 MOTS 时，提出了 temporal consistency loss (TC loss)，在训练过程中应用，以提升 seed map prediction 的质量。后面的实验也证实这个 loss 能提升实例分割的性能。
$L_{tc}=\frac{1}{N}\sum_i^N {||\hat{S^T_i}-S^T_i||}^2$

Experiments & Performance

实验中的主要评价指标有 sMOTSA, MOTSA, id switches (IDS)

实验中的数据集：

KITTI MOTS
APOLLO MOTS
MOTSChallenge

在 KITTI MOTS val set 上的表现：

在这里插入图片描述

在 KITTI MOTS test set 上的表现：

在这里插入图片描述

在 APOLLO MOTS val set 上的表现：

在这里插入图片描述

从 table4 中可以看到，相比于其他模型，PointTrack 能大大降低 IDS：

在这里插入图片描述

在 MOTSChallenge 上的表现：

在这里插入图片描述

对关键点进行可视化：

在这里插入图片描述

如 fig5，对 embbedings 进行可视化，说明了 PointTrack 能够学习到区分性更高的 instance embbedings。而且，作者发现有较大相对运动的实例（如 9, 13, 20）在 fig5 中呈现出线性的形状，而相对运动较小的实例（如 7, 26, 32）则呈现圆形的形状。

在这里插入图片描述