CVPR 2020——OccuSeg: Occupancy-aware 3D Instance Segmentation

Abstract

  • 定义“3D occupancy size”,即每个实例所占用的体素数。
  • 在此基础上,提出了一种基于occupancy-aware的三维实例分割方案OccuSeg。
  • 论文的多任务学习产生了 occupancy signal和embedding representations,在这两个representations中,对空间和特征嵌入的训练随着它们在scale-aware上的不同而不同。
  • 论文的聚类方案得益于预测的occupancy size 和聚类occupancy size 之间的可靠比较,这有助于正确地对hard samples进行聚类,避免过度分割。
  • 该方法在保持高效率的同时,在3个真实数据集(即ScanNetV2、S3DIS和SceneNN)上实现了最先进的性能。

(一)Introduction

  • 以三维几何模型为输入,逐点预测实例级语义信息.
  • 如图1所示。鉴于三维度量空间比基于2D图像的投影观察提供了更可靠的感知,特别引入了“3D occupancy signal”,表示每个实例所占用的体素的数量。
  • 这样的occupancy signal代表了每个3D实例的内在和基本属性,显示了处理三维设置下尺度、位置、纹理、光照和遮挡的模糊性的强大潜力。
  • 将新的occupancy signal编码到传统的三维实例分割管道中,即:学习阶段,聚类阶段。
  • 在occupancy-aware方法中,学习和聚类阶段都充分利用了occupancy signal的特征,从而在公共数据集上实现了竞争性能。

具体步骤:

  1. 学习阶段以彩色3D场景为输入,利用空间稀疏卷积方法为每个体素提取一个混合向量。它不仅学习了经典的嵌入方法,如空间嵌入(图1(d))和特征嵌入(图1(e)),还产生了occupancy signal(图1(f)),这意味着object-level volume。
  2. 为了充分利用语义信息和几何信息,特征和空间嵌入被明确地以不同的目标进行监督,并进一步通过对特征和空间嵌入距离的协方差估计进行组合。
  3. 在聚类阶段,使用基于图的分割算法<< Efficient
    graph-based image segmentation.>>,根据几何和外观约束将三维输入点云分组为超体素。
  4. 然后,将嵌入相似特征的超体素合并到同一实例中,利用自适应阈值评估嵌入距离与occupancy size的相似性。
  5. 借助预测的occupancy size和聚类occupancy size之间的可靠比较,论文的聚类方法使得hard samples 被正确地聚类,并消除了部分实例被识别为独立实例的假阳性。

贡献:

  1. 提出了一种基于occupancy-aware 的三维实例分割方案OccuSeg。它在三个公共数据集上实现了最先进的性能:ScanNetV2、S3DIS和SceneNN,在所有指标上都以显著的优势排名第一,同时保持高效率.
  2. 提出了一种新的occupancy signal,它可以预测每个实例中被占用的体素数量。将特征与空间嵌入相结合,共同学习occupancy signal,用于指导三维实例分割的聚类阶段。

(二)Related Work

~~

(三)Methods

目标:

  • 将一个体素化的3D彩色场景作为输入,并为每个体素生成一个3D对象实例标签,其中属于同一对象的体素共享一个惟一的实例标签。

现有方法不足:

  • 目前很少明确地利用了不同于2D图像观测的3D模型的固有特性:在没有遮挡或尺度模糊的情况下重建度量空间中的环境。

发现:

  • 如图2,同一实例在三维空间中,其在二维图像上的观测结果可能会有很大差异。每个实例占用的像素/体素数(表示occupancy)在二维图像上是不可预测的,但可以从重建的三维模型中得到可靠的预测。

论文idea:

在occupancy signal的基础上,提出了一种occupancy-aware的三维实例分割方案。虽然它遵循经典的学习再聚类过程,但是学习阶段和聚类阶段都不同于现有的方法。

网络流程:

  1. 首先将输入的三维场景在2cm分辨率下进行体素化,
  2. 然后送入三维卷积神经网络(UNet)进行特征提取。
  3. 将学习到的特征转发给task-specific heads,学习每个输入体素的不同表示,包括语义分割,目的是分配类标签,特征和空间嵌入,以及 occupancy regression(第3.1节)。
  4. 最后,提出了一种graph-based occupancy-aware clustering scheme,该方案利用了预测的occupancy information和前一阶段的feature embedding(第3.2节)。
  5. 所有的3D卷积都是使用子流形稀疏卷积网络实现的,利用了输入3D场景的稀疏性。 该网络的详细信息在附录中提供。
3.1. Multi-task Learning

目的: 同时利用三维场景中固有的occupancy以及语义和空间信息。

提出了一个多任务学习框架来学习第 i i i个输入体素的task-specific representations ,包括:

  1. 语义分割 c i c_i ci,目的是分配类标签;
  2. s i s_i si d i d_i di for 联合特征和空间嵌入,以及相应的 b i b_i bi for 协方差预测,以融合特征和空间信息;
  3. o i o_i oi for occupancy regression。

对网络进行训练,使联合损失函数最小化:
L = L c + L e + L o − − − − − − − − − − ( 2 ) L=L_{c}+L_{e}+L_{o}----------(2) L=Lc+Le+Lo(2)

  • L c L_{c} Lc是一种传统的用于语义分割的交叉熵损失。
  • L e L_{e} Le目的是学习一种综合考虑feature and spatial embedding的嵌入向量,用于实例分割。
  • L o L_{o} Lo用于回归每个体素所属实例的occupancy size。
3.1.1 Embedding Learning

与以往直接将特征和空间嵌入相结合的方法不同,论文将它们分开,并用不同的目标监督它们的学习过程。

  • 虽然空间嵌入是尺度感知的,并且具有明确的物理解释,例如从当前体素到其所属实例的空间中心的偏移向量,
  • 但是特征嵌入存在固有的模糊尺度,因此必须使用附加的代价函数进行正则化。
  • 利用协方差估计进一步正则化了两个嵌入。
  • 用于嵌入 L c L_{c} Lc的学习函数包含三个项的元素列表,即空间项 L s p L_{sp} Lsp、特征项 L s c L_{sc} Lsc和协方差项 L c o v L_{cov} Lcov:
    L e = L s p + L s e + L c o v − − − − − − − − − − ( 2 ) L_{e}=L_{sp}+L_{se}+L_{cov}----------(2) Le=Lsp+Lse+Lcov(2)

Spatial Term.

i i i个体素的空间嵌入 d i d_i di是一个回归到对象中心的3维向量,使用以下空间术语对其进行监督:
L s p = 1 C ∑ c = 1 C 1 N c ∑ i = 1 N c ∥ d i + u i − 1 N c ∑ i = 1 N c u i ∥ − − − − − − − − ( 3 ) L_{sp}=\frac{1}{C}\sum_{c=1}^{C}\frac{1}{N_{c}}\sum_{i=1}^{N_{c}}\left \| d_{i}+u_{i}-\frac{1}{N_{c}}\sum_{i=1}^{N_{c}}u_{i}\right \|--------(3) Lsp=C1c=1CNc1i=1Ncdi+uiNc1i=1Ncui(3)

  • C C C是输入3D场景中实例的数量
  • N C N_C NC是是第c个实例中的体素的数量
  • u i u_i ui是第c个实例中第i个体素的3D位置。

Feature Term.

包含三个项的判别损失函数来学习特征嵌入 s i s_i si
L s c = L v a r + L d i s t + L r e g − − − − − − − − − − ( 4 ) L_{sc}=L_{var}+L_{dist}+L_{reg}----------(4) Lsc=Lvar+Ldist+Lreg

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值