Summary - Segment as Points for Efficient Online Multi-Object Tracking and Segmentation

Zhenbo Xu, Wei Zhang, Xiao Tan, Wei Yang*, Huan Huang, Shilei Wen, Errui Ding, Liusheng Huang, Conference on Computer Vision and Pattern Recognition (ECCV) 2020

[paper] [code]

背景

目前的多目标跟踪与分割(MOTS)方法遵循检测跟踪 (tracking by detection) 的思想,采用卷积进行特征提取。然而,受固有的感受域的影响,基于卷积的特征提取不可避免地会混淆前景特征和背景特征,从而在后续实例关联中产生歧义。

文中提出了一种高效的方法,通过将紧凑的图像表示转化为无序的 2D 点云表示,从而基于分割 (base on segments) 学习实例嵌入 (instance embeddings)。此外,多种信息数据模态 (如 offset, color, category, position) 被转换成点表示,以丰富点的特征。由此得到一个 online MOTS 框架 PointTrack,以接近实时的速度(22fps)大大超过了包括3D跟踪在内的所有最新方法(比MOTSA高5.4%,比MOTSFusion快18倍)。

文章的贡献:

  • 将紧凑的图像表示转化为无序的 2D 点云表示
  • 提出了一个高效的框架 PointTrack
  • 构建了一个称为 APOLLO MOTS 的数据集,具有更高的实例密度,挑战性更大
  • 在 3 个数据集上评估了 PointTrack 的性能。实验显示 PointTrack 在速度、分割性能、泛化性能上都比现有 SOTA 方法更有优势,并且可以大大降低 id switches。

模型结构

在这里插入图片描述

Context-aware instance embeddings extraction

在提取逐点特征时,PointTrack 加入了多种模态的数据,分别为 offset, color, category, position。对于前景和背景的 2D 点云,如 fig 2,模型将他们在 2 个分支里分别处理后,再与 position encodeing 一起进行 concatenation,最后得到 instance embedding。

Instance association:为了得到最后的 tracking result,给定 segments C S i , C S j C_{S_i},C_{S_j} CSi,CSj,以及它们对应的 embeddings M i , M j M_i, M_j Mi,Mj,需要基于下面的相似度的度量 S S S 进行 Instance association
S ( C S i , C S j ) = − D ( M i , M j ) + α ∗ U ( C S i , C S j ) S(C_{S_i},C_{S_j})=-D(M_i, M_j)+\alpha*U(C_{S_i},C_{S_j}) S(CSi,CSj)=D(Mi,Mj)+αU(CSi,CSj)
其中,D 是欧式距离,U 是 mask IOU,默认 α = 0.5 \alpha=0.5 α=0.5

Instance segmentation with Temporal Seed Consistency

在这里插入图片描述

PointTrack 使用了如 fig3 所示的 one-stage instance segmentation 方法 SpatialEmbedding。它有两个 decoder:seed decoder 和 inst decoder。

当作者将其用于 MOTS 时,提出了 temporal consistency loss (TC loss),在训练过程中应用,以提升 seed map prediction 的质量。后面的实验也证实这个 loss 能提升实例分割的性能。
L t c = 1 N ∑ i N ∣ ∣ S i T ^ − S i T ∣ ∣ 2 L_{tc}=\frac{1}{N}\sum_i^N {||\hat{S^T_i}-S^T_i||}^2 Ltc=N1iNSiT^SiT2

Experiments & Performance

实验中的主要评价指标有 sMOTSA, MOTSA, id switches (IDS)

实验中的数据集:

  • KITTI MOTS
  • APOLLO MOTS
  • MOTSChallenge

在 KITTI MOTS val set 上的表现:

在这里插入图片描述

在 KITTI MOTS test set 上的表现:

在这里插入图片描述

在 APOLLO MOTS val set 上的表现:

在这里插入图片描述

从 table4 中可以看到,相比于其他模型,PointTrack 能大大降低 IDS:

在这里插入图片描述

在 MOTSChallenge 上的表现:

在这里插入图片描述

对关键点进行可视化:

在这里插入图片描述

如 fig5,对 embbedings 进行可视化,说明了 PointTrack 能够学习到区分性更高的 instance embbedings。而且,作者发现有较大相对运动的实例(如 9, 13, 20)在 fig5 中呈现出线性的形状,而相对运动较小的实例(如 7, 26, 32)则呈现圆形的形状。

在这里插入图片描述

Ablation Study

Ablation Study on the impat of data modalities:作者分别对 offset, color, category, position 这几种模态的数据做了 Ablation Study,table6 中的 x 代表去掉对应的数据。

在这里插入图片描述

总结

PointTrack 将紧凑的图像表示分解为二维无序的点云来学习高区分性的 instance embbedings,并将不同的信息数据模态转换为点级别的表示,以丰富点云特征。这样做可以克服卷积操作带来的前景背景混淆的问题,从而提升实例分割的性能。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值