Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang*, Huan Huang, Shilei Wen, Errui Ding, Liusheng Huang, Conference on Computer Vision and Pattern Recognition (ECCV) 2020
背景
目前的多目标跟踪与分割(MOTS)方法遵循检测跟踪 (tracking by detection) 的思想,采用卷积进行特征提取。然而,受固有的感受域的影响,基于卷积的特征提取不可避免地会混淆前景特征和背景特征,从而在后续实例关联中产生歧义。
文中提出了一种高效的方法,通过将紧凑的图像表示转化为无序的 2D 点云表示,从而基于分割 (base on segments) 学习实例嵌入 (instance embeddings)。此外,多种信息数据模态 (如 offset, color, category, position) 被转换成点表示,以丰富点的特征。由此得到一个 online MOTS 框架 PointTrack,以接近实时的速度(22fps)大大超过了包括3D跟踪在内的所有最新方法(比MOTSA高5.4%,比MOTSFusion快18倍)。
文章的贡献:
- 将紧凑的图像表示转化为无序的 2D 点云表示
- 提出了一个高效的框架 PointTrack
- 构建了一个称为 APOLLO MOTS 的数据集,具有更高的实例密度,挑战性更大
- 在 3 个数据集上评估了 PointTrack 的性能。实验显示 PointTrack 在速度、分割性能、泛化性能上都比现有 SOTA 方法更有优势,并且可以大大降低 id switches。
模型结构
Context-aware instance embeddings extraction
在提取逐点特征时,PointTrack 加入了多种模态的数据,分别为 offset, color, category, position。对于前景和背景的 2D 点云,如 fig 2,模型将他们在 2 个分支里分别处理后,再与 position encodeing 一起进行 concatenation,最后得到 instance embedding。
Instance association:为了得到最后的 tracking result,给定 segments
C
S
i
,
C
S
j
C_{S_i},C_{S_j}
CSi,CSj,以及它们对应的 embeddings
M
i
,
M
j
M_i, M_j
Mi,Mj,需要基于下面的相似度的度量
S
S
S 进行 Instance association
S
(
C
S
i
,
C
S
j
)
=
−
D
(
M
i
,
M
j
)
+
α
∗
U
(
C
S
i
,
C
S
j
)
S(C_{S_i},C_{S_j})=-D(M_i, M_j)+\alpha*U(C_{S_i},C_{S_j})
S(CSi,CSj)=−D(Mi,Mj)+α∗U(CSi,CSj)
其中,D 是欧式距离,U 是 mask IOU,默认
α
=
0.5
\alpha=0.5
α=0.5。
Instance segmentation with Temporal Seed Consistency
PointTrack 使用了如 fig3 所示的 one-stage instance segmentation 方法 SpatialEmbedding。它有两个 decoder:seed decoder 和 inst decoder。
当作者将其用于 MOTS 时,提出了 temporal consistency loss (TC loss),在训练过程中应用,以提升 seed map prediction 的质量。后面的实验也证实这个 loss 能提升实例分割的性能。
L
t
c
=
1
N
∑
i
N
∣
∣
S
i
T
^
−
S
i
T
∣
∣
2
L_{tc}=\frac{1}{N}\sum_i^N {||\hat{S^T_i}-S^T_i||}^2
Ltc=N1i∑N∣∣SiT^−SiT∣∣2
Experiments & Performance
实验中的主要评价指标有 sMOTSA, MOTSA, id switches (IDS)
实验中的数据集:
- KITTI MOTS
- APOLLO MOTS
- MOTSChallenge
在 KITTI MOTS val set 上的表现:
在 KITTI MOTS test set 上的表现:
在 APOLLO MOTS val set 上的表现:
从 table4 中可以看到,相比于其他模型,PointTrack 能大大降低 IDS:
在 MOTSChallenge 上的表现:
对关键点进行可视化:
如 fig5,对 embbedings 进行可视化,说明了 PointTrack 能够学习到区分性更高的 instance embbedings。而且,作者发现有较大相对运动的实例(如 9, 13, 20)在 fig5 中呈现出线性的形状,而相对运动较小的实例(如 7, 26, 32)则呈现圆形的形状。
Ablation Study
Ablation Study on the impat of data modalities:作者分别对 offset, color, category, position 这几种模态的数据做了 Ablation Study,table6 中的 x 代表去掉对应的数据。
总结
PointTrack 将紧凑的图像表示分解为二维无序的点云来学习高区分性的 instance embbedings,并将不同的信息数据模态转换为点级别的表示,以丰富点云特征。这样做可以克服卷积操作带来的前景背景混淆的问题,从而提升实例分割的性能。