【文献翻译】3D-BoNet：学习点云上三维实例分割的对象边界盒

Garcia • Kirlant

已于 2022-07-07 11:33:55 修改

阅读量1.5k

点赞数 1

分类专栏： 3D点云实例分割文章标签：深度学习

于 2020-12-14 21:34:53 首次发布

本文链接：https://blog.csdn.net/WingNebula/article/details/107883769

版权

3D点云实例分割专栏收录该内容

10 篇文章 5 订阅

订阅专栏

原文链接：https://arxiv.org/pdf/1906.01140.pdf

代码链接：github.com/Yang7879/3D-BoNet

作者知乎：[NeurIPS 2019 Spotlight] 3D-BoNet:3D点云实例分割新框架 - 知乎

摘要

我们提出了一种新颖的、概念简单且通用的三维点云实例分割框架。我们的方法称为3D-BoNet，遵循逐点多层感知器(MLPs)的简单设计哲学。该框架直接回归点云中所有实例的3D边框，同时为每个实例预测点级掩模。它由一个骨干网络和两个并行网络分支组成，分别进行边界盒回归和逐点掩模预测。3D-BoNet是一个single-stage、anchor-free、end-to-end的训练器。此外，它的计算效率非常高，因为与现有的方法不同，它不需要任何后处理步骤，如非最大抑制、特征采样、聚类或投票等。广泛的实验表明，我们的方法在ScanNet和S3DIS数据集上比现有的工作提高了约10倍的计算效率。全面的ablation studies(消融研究？)证明了我们设计的有效性。

引言

让机器理解3D场景是自动驾驶、增强现实和机器人技术的基本需求。点云等三维几何数据的核心问题包括语义分割、目标检测和实例分割。在这些问题中，实例分割在文献中才刚刚开始处理。主要的障碍是点云本质上是无序的、无结构的和不均匀的。卷积神经网络应用广泛，但它需要对三维点云进行体素化，导致计算和存储成本较高。

第一个直接处理三维实例分割的神经算法是SGPN[50]，它通过相似度矩阵学习对每个点的特征进行分组。同样，ASIS[51]、JSIS3D[34]、MASC[30]、3D- bevis[8]和[28]对3D实例分割应用了相同的逐点特征分组通道(pipeline)。Mo等人在PartNet[32]中将实例分割制定为逐点特征分类问题。然而，这些 proposal-free 方法的 learnt segments 并没有很高的 objectness (对象状态)，因为它们没有显式地检测对象边界。此外，它们不可避免地需要一个后处理步骤，如使用计算量很大的 mean-shift 聚类[6]获得最终的实例标签。另一种方法是 proposal-based 的3D-SIS[15]和GSPN[58]，它们通常依靠两阶段的训练和昂贵的非最大抑制来修剪密集的object proposals。

在本文中，我们提出了一个优雅、高效和新颖的三维实例分割框架，该框架使用高效的MLPs通过前向单阶段对对象进行松散而唯一的检测，然后通过简单的点级二分类器对每个实例进行精确的分割。为此，我们引入了一个新的边界盒预测模块以及一系列精心设计的损失函数，直接学习对象边界。我们的框架显著地区别于现有的proposal-based和proposal-free的方法，因为我们能够高效地分割所有实例，具有很高的objectness(目标性)，而不依赖昂贵和密集的object proposals。我们的代码和数据可在 https://github.com/Yang7879/3D-BoNet 获得。

如图1所示，我们的框架称为3D-BoNet，是一个single-stage、anchor-free、end-to-end 的可训练的神经结构。首先利用现有的骨干网提取每个点的局部特征向量，然后提取整个输入点云的全局特征向量。主干后面有两个分支: 1) 实例级边界盒预测，2) 实例分割的点级掩码预测。

边界盒预测分支是我们框架的核心。该分支旨在为每个实例在单个前向阶段预测一个唯一的、无方向性的矩形边界盒，而不依赖于预定义的空间锚点(spatial anchors)或区域建议网络(region proposal network )[39]。

如图2所示, 我们相信大概地绘制一个实例的3D边界框是可行的,因为输入点云明确地包含了3D几何信息, 同时它在处理点级的实例分割之前非常有利, 因为合理的边界框可以保证学段(learnt segments)的高目标性。然而，学习实例的边界框涉及到几个关键问题: 1)实例的总数是可变的，即从1到n； 2)所有实例都没有固定的顺序。

这些问题给正确优化网络带来了巨大的挑战，因为没有信息可以直接将预测盒与地面真值标签链接起来来监督网络。然而，我们将展示如何优雅地解决这些问题。该盒预测分支简单地以全局特征向量作为输入，直接输出大量固定数量的边界盒以及置信度分数。这些分数用于指示框是否包含有效实例。为了对网络进行监督，我们设计了一种新的边界盒关联层，然后是一个多准则损失函数。给定一组ground-truth实例，我们需要确定哪个预测框最适合它们。我们将此关联过程表示为一个具有现有求解器的最优分配问题。在箱子被最优关联后，我们的多准则损失函数不仅使成对边界盒的欧氏距离最小化，而且使预测盒内有效点的覆盖率最大化。

然后将预测框连同点和全局特征送入后续的点掩码预测分支，以便为每个实例预测一个点级二进制掩码。此分支的目的是区分分类边界框内的每个点是属于有效实例还是属于背景。假设估计的实例框相当好，它很可能获得一个精确的点掩码，因为这个分支只是简单地拒绝了不属于被检测实例的点。一次随机猜测可能会带来大约50%的修正。

总的来说，我们的框架与现有的所有3D实例分割方法有三种不同之处。1) 与proposal-free pipeline相比，通过明确地学习三维物体边界，我们的方法的分割实例具有较高的目标性。 2)与广泛使用的proposal-based方法相比，我们的框架不需要昂贵和密集的proposals。 3)我们的框架是非常高效的，因为实例级掩码是通过单次向前传递学习的，不需要任何后处理步骤。我们的主要贡献是:

• 我们提出了一个在3D点云上进行实例分割的新框架。该框架是single-stage、anchor-free、end-to-end、可训练的，不需要任何后续处理。

• 我们设计了一个新颖的边界盒关联层，后跟一个多准则损失函数来监督盒预测分支。

• 通过广泛的消融研究，我们证明了基线的显著改善，并为我们的设计选择提供了直觉。

3D-BoNet

1. 概述

如图3所示，我们的框架由主干网顶部的两个分支组成。给定具有个点的输入点云，即 $P\in \mathbb{R}^{N\times k_{0}}$ ， $k_{0}$ 是每个点的位置 $\left \{ x,y,z \right \}$ 、颜色 $\left \{ r,g,b \right \}$ 等通道的数量。主干网络提取点的局部特征，记为 $F_{l}\in \mathbb{R}^{^{N\times k}}$ ，并聚合全局点云特征向量，记为 $F_{g}\in \mathbb{R}^{^{1\times k}}$ 。其中，为特征向量的长度。

边界盒预测分支简单地以全局特征向量 F_g 为输入，直接回归预定义的固定边界盒集合，记为，边界盒对应的分数记为 B_s 。我们利用地面真值边界盒信息来监督这个分支。在训练过程中，将预测的边界盒和地面真值盒送入边界盒关联层。这一层的目标是自动地将每个ground truth box与一个唯一且与它最相似的predicted box关联起来。关联层的输出是一个关联索引列表。

索引列表重组了预测边界盒，从而使每个地面真值盒与一个唯一的预测盒配对，用于后续损失计算。在计算损失之前，预测的边界框分数也会相应地重新排序。重新排序的预测边界盒然后被送入多准则损失函数。基本上，该损失函数的目的是使每个ground truth box与相关predicted box之间的欧氏距离最小，同时使每个预测box内有效点的覆盖范围最大。需要注意的是，边界框关联层和多准则损失函数都是为网络训练而设计的，测试时不使用。最终，这个分支能够直接预测正确的边界盒以及每个实例的盒分数。

为了对每个实例进行点级二进制掩码的预测，将每个预测框与之前的局部和全局特征，即 $F_{l}$ 和 $F_{g}$ ，进一步送入点掩码预测分支中。这个网络分支由不同类别的所有实例共享，因此非常轻便和紧凑。这种类不可知的方法本质上允许跨类别进行普遍的分割。

2. 边界框预测

边界盒编码：在现有的目标检测网络中，边界盒通常用中心位置和三维长度[3]，或者对应的残差和方向[60]来表示。相反，简单起见，我们仅用两个最小最大的顶点来参数化矩形边框: $\left \{ \left [ x_m_i_n,y_m_i_n,z_m_i_n \right ],\left [ x_m_a_x,y_m_a_x,z _m_a_x\right ] \right \}$

神经层：如图4所示，全局特征向量 $F_{g}$ 通过两个全连接层来馈入，并将ReLU函数作为非线性激活函数。然后是另外两个平行的全连接层。一层输出一个维向量，然后将其重塑为一个 $H\times 2\times 3$ 的张量。H是预先定义且固定的边界盒数目，期望整个网络能最大限度地进行预测。另一层输出一个维向量，后面跟着sigmoid 函数来表示边界框得分。得分越高，预测盒包含实例的可能性越大，预测盒越有效。

边界盒关联层：给定预先预测好的个边界盒，即 $B\in \mathbb{R}^{H\times 2\times 3}$ ，利用ground truth box ，记为 $\bar{B}\in \mathbb{R}^{T\times 2\times 3}$ ，来监督网络并不简单，因为在我们的框架中，没有预定义的anchors来跟踪每个predicted box返回到对应的ground truth box。此外，对于每个输入点云，ground truth box的数量是不同的，且通常与预定义的不同，尽管我们可以安全地假设对所有输入点云而言，预定义边界盒数目 $H\geq T$ 。此外，predicted box和ground truth box都没有顺序。

最优关联规划：为了给 $\bar{B}$ 中每一个ground truth box 都关联一个唯一的中的predicted box，我们将它作为一个最优分配问题，制定了一个关联过程。形式上，设是一个布尔关联矩阵，其中, 如果第个predicted box被分配给第个ground truth box，那么 $A_{i,j} = 1$ 。在本文中也称为关联指数。设为关联代价矩阵，其中 $C_{i,j}$ 表示第个predicted box分配给第个ground truth box的代价。基本上，代价 $C_{i,j}$ 表示两个盒子之间的相似性；代价越低，两盒越相似。因此，边界框关联问题是寻找总体代价最小的最优分配矩阵:

$A = \underset{\mathbf{\boldsymbol{A}}}{\arg min} \sum_{i=1}^{H} \sum_{j=1}^{T}C_{i, j}A_{i, j}$ ，其中 $\sum_{i=1}^{H} A_{i, j} = 1, \sum_{j=1}^{T} A_{i, j} \leq 1, j\in \left \{ 1, ..., T \right \},i\in \left \{ 1, ..., H \right \}$

为了解决上述最优关联问题，采用了现有的匈牙利算法[20,21]。

关联矩阵计算：为了评价第个 predicted box 与第个 ground truth box 之间的相似性，一个简单直观的准则是两对最小最大顶点之间的欧氏距离。然而它不是最佳的。基本上，我们希望 predicted box 包含尽可能多的有效点。如图5所示，在三维空间中，输入点云通常是稀疏的，分布不均匀的。对于相同的ground truth box #0(蓝色)，candidate box #2(红色)被认为比candidate box #1(黑色)好得多，因为box #2与#0有更多的有效点重叠。因此，计算代价矩阵时需要考虑有效点的覆盖率。在本文中，我们考虑以下三个标准:

(1) 顶点之间的欧式距离。第个 predicted box 与第个 ground truth box 之间的代价计算如下：

$C_{i, j}^{ed} = \frac{1}{6} \sum \left ( B_{i} - \bar{B}_{j} \right )^{2}$

(2) 点的 Soft Intersection-over-Union。给定输入点云和第个 ground truth instance box $\bar{B}_{j}$ ，它可以直接获得硬性二进制向量(hard-binary vector) $\bar{q}_{j} \in \mathbb{R}^{N}$ ，来表示每个点是否在方框内，其中“1”表示点在里面，“0”表示点在外面。但是，对于同一个输入点云的具体的第个 predicted box，直接获得一个相似的硬性二进制向量会导致框架由于离散化操作而不可微。因此，我们引入一种可微但简单的算法1来获得一个类似的但是软性二进制的向量 q_i ，称为point-in-pred-box-probability，其中所有的值都在(0,1)范围内。对应的点在方框中越深，值就越高。点在外面越远，值越小。正式地，第个 predicted box 和第个 ground truth instance box 之间的 sIoU 代价定义如下:

$C_{i, j}^{sIoU} = \frac{- \sum_{n = 1}^{N}\left ( q_{i}^{n} * \bar{q_{j}}^{n} \right )}{\sum_{n = 1}^{N}q_{i}^{n} +\sum_{n = 1}^{N} \bar{q_{j}}^{n} - \sum_{n = 1}^{N}\left ( q_{i}^{n} * \bar{q_{j}}^{n} \right )}$

算法1: 是预测边界盒的数量，是点云中点的数量， $\theta _{1}$ 和 $\theta _{2}$ 是数值稳定性的超参数。

(3) 交叉熵分数。此外,我们还考虑了 q_i 和 $\bar{q}_{j}$ 之间的交叉熵分数。不同于sIoU偏好更严格的边界盒，这个分数代表了一个predicted bounding box能够包含尽可能多的有效点的置信度。它更喜欢更大、更具包容性的边界盒，正式定义为:

$C_{i, j}^{ces} = -\frac{1}{N} \sum_{n = 1}^{N} \left [ \bar{q_{j}}^{n}\log q_{i}^{n}+(1- \bar{q_{j}}^{n})\log (1-q_{i}^{n})\right ]$

总的来说，准则(1)保证了学习盒的几何边界，准则(2)(3)最大限度地提高了有效点的覆盖率，克服了非均匀性，如图5所示。第个 predicted box 与第个 ground truth box 的最终关联代价定义为:

$C_{i, j} = C_{i, j}^{ed} + C_{i, j}^{sIoU} + C_{i, j}^{ces}$

损失函数：在边界盒关联层之后，使用关联索引对预测的盒和得分 $B_{s}$ 进行重新排序，使第一个预测的个边界盒和得分与个ground truth box 很好地匹配。

盒预测的多准则损失：前一个关联层根据最小化以下代价：1)顶点欧几里得距离；2)点上的sIoU代价；3)交叉熵分数，为每个ground truth box 找到了最相似的 predicted box。因此，用于边界盒预测的损失函数自然被设计为始终如一地最小化这些代价。它的正式定义如下:

$l_{bbox} = \frac{1}{T}\sum_{t = 1}^{T}(C_{t, t}^{ed} + C_{t, t}^{sIoU} + C_{t, t}^{ces})$

其中， $C_{t, t}^{ed} , C_{t, t}^{sIoU} , C_{t, t}^{ces}$ 是第对边界盒的损失。注意，我们只最小化了对边界盒的代价;剩下的 H-T 个predicted box被忽略，因为它们没有相应的ground truth box。因此，这个边界盒预测子分支对的预定义值是不可知的。这里提出了一个问题。既然 H-T 个负面预测并不会受到惩罚，那么网络就有可能为一个单一的实例预测多个相似的边界盒。幸运的是，the parallel box score prediction (平行盒分数预测?)的损失函数能够缓解这一问题。

盒分数预测的损失：预测盒分数的目的是表明相关 predicted box 的有效性。根据关联索引重新排序后，ground truth scores 中的前个得分都为‘1’，其余无效的 H-T 个得分为‘0’。在这个二分类任务中，我们使用了交叉熵损失:

$l_{bbs} =- \frac{1}{H}[\sum_{t = 1}^{T}\log B_{s}^{t} + \sum_{t = T+1}^{H}\log (1-B_{s}^{t})]$

其中， $B_{s}^{t}$ 是关联后的第个预测分数。基本上，这个损失函数奖励了正确预测的边界盒，同时隐式地惩罚了对单个实例回归多个相似的盒子的情况。

3. 点掩码预测

已知预测的边界盒，学习到的点特征 $F_{l}$ 和全局特征 $F_{g}$ ，点掩模预测分支使用共享的神经层对每个边界盒进行单独处理。

神经层：如图6所示，通过全连通层将点特征和全局特征都压缩为256维向量，然后拼接再进一步压缩为128维混合点特征 $\tilde{F}_{l}$ 。对于第个预测边界框 $B_{i}$ ，其估计的顶点和分数F通过串联与 $\tilde{F}_{l}$ 融合,得到 box-aware 特征 $\hat{F}_l$ 。这些特征然后通过共享层传递，预测一个点级二进制掩码，用 M_i 表示。我们使用sigmoid作为最后的激活函数。与现有技术[58;15;13]中常用的RoIAlign相比，这种简单的盒融合方法具有极高的计算效率,其中涉及昂贵的点特征采样和对齐。

损失函数：根据前面的关联指数，预测的实例掩码与ground truth掩码相似地关联。由于实例和背景点数的不平衡，我们使用默认超参数的焦损失代替标准的交叉熵损失来优化这个分支。只有有效的T对掩码被用于损失 $l_{pmask}$ 。

4. 端到端实现

虽然我们的框架不局限于任何点云网络，但是我们采用PointNet++[38]作为主干来学习局部和全局特性。同时，利用标准softmax交叉熵损失函数 $I_{sem }$ 实现了另一个单独的分支来学习逐点语义。主干和语义分支的架构与[50]中使用的相同。给定输入点云，使用单独组合的多任务损失，对上述三个分支进行连接和端到端训练:

$l_{all} = l_{sem}+l_{bbox}+l_{bbs}+l_{pmask}$

我们使用Adam solver[18]及其默认超参数进行优化。初始学习速率设定为 $5e^{-4}$ ，然后每20个epoch除以2。整个网络从头开始在一个Titan X GPU上训练。我们对所有的实验使用相同的设置，这保证了我们的框架的重现性。

实验

1. ScanNet基准上的评估

我们首先在ScanNet(v2) 3D语义实例分割基准[7]上评估我们的方法。与SGPN[50]类似，我们将原始输入点云划分为 $1m\times 1m$ 的块进行训练，同时使用所有的点进行测试，然后使用块合并算法[50]将块组装成完整的3D场景。在实验中，我们发现基于pointnet++的传统语义预测子分支的性能有限，不能提供令人满意的语义。由于我们的框架具有灵活性，因此我们可以轻松地训练一个并行SCN网络[11]来为我们的3D-BoNet的预测实例估计更精确的逐点语义标签。采用IoU阈值为0.5的平均精度(AP)作为评价指标。

我们比较了表1中18个对象类别的主要方法。其中，SGPN[50]、3D-BEVIS[8]、MASC[30]和[28]是基于点特征聚类的方法;该R- PointNet[58]学习生成密集目标建议，然后进行点级分割;3D-SIS[15]是一种基于点云和彩色图像作为输入的方法。PanopticFusion[33]通过Mask-RCNN[13]学习在多个2D图像上分割实例，然后使用SLAM系统重新投影到3D空间。我们的方法仅使用点云就超过了所有这些方法。值得注意的是，我们的框架在所有类别上的执行都比较令人满意，而不需要偏好特定的类，这说明了我们的框架的优越性。

2. S3DIS数据集上的评估

我们进一步评估了我们在S3DIS[1]上的框架的语义实例分割，它包含了来自6个大区域的271个房间的3D完整扫描。我们的数据预处理和实验设置严格遵循PointNet[37]、SGPN[50]、ASIS[51]、JSIS3D[34]。在我们的实验中，被设为24，我们遵循6倍评价[1;51]。

我们将其与ASIS[51](S3DIS数据集上最先进的方法) 和PartNet基准方法[32]进行比较。为了进行公平的比较，我们小心地使用与我们的框架中使用的相同的pointnet++主干和其他设置来训练PartNet基准方法。为了进行评价，本文报道了IoU阈值为0.5的经典指标mean precision (mPrec)和mean recall (mRec)。注意，对于我们的方法和PartNet基准方法，我们使用相同的块合并算法[50]来合并来自不同块的实例。最后的分数是13个类别的平均分。表2给出了mPrec/mRec评分，图7给出了定性结果。我们的方法大大超过了PartNet基准方法[32]，也优于ASIS[51]，但并不显著，这主要是因为我们的语义预测分支(基于pointnet++)不如ASIS，后者紧密融合了语义和实例特征，以便相互优化。我们将功能融合作为未来的探索方向。

3. 消融研究

为了评估我们框架中每个组件的有效性，我们在S3DIS数据集的最大区域5上进行了6组消融实验。

(1) 去除边界盒分数预测分支。边界盒分数基本上是有效预测边界盒的指标和调节器。移除后，我们对网络进行训练:

$l_{ab1} = l_{sem}+l_{bbox}+l_{pmask}$

最初，多准则损失函数是欧氏距离、sIoU和交叉熵分数的简单无加权组合。但是，这可能不是最优的，因为输入点云的密度通常不一致，倾向于选择不同的准则。我们对修改后的边界盒损失函数进行了以下3组实验。

(2)~(4) 使用单一的标准。盒关联和损失 $l_{bbox}$ 只使用一个准则。

$l_{ab2} = l_{sem}+\frac{1}{T} \sum_{t=1}^{T}C_{t, t}^{ed} + l_{bbs}+l_{pmask}$

$\cdots$

$l_{ab4} = l_{sem}+\frac{1}{T}\sum_{t=1}^{T}C_{t, t}^{ces} + l_{bbs}+l_{pmask}$

(5) 不监督边界盒预测。预测的边界盒仍然按照这三个标准进行关联，但是我们去掉了边界盒的监督信号。用以下方法训练框架:

$l_{ab5} = l_{sem}+ l_{bbs}+l_{pmask}$

(6) 消除点掩模预测的焦损失。在点掩模预测分支中，将焦点损失替换为标准的交叉熵损失进行比较。

分析表3为烧蚀实验评分。(1) box score子分支确实有利于实例分割的整体性能，因为它倾向于惩罚重复的box预测。(2)与欧氏距离和交叉熵评分相比，sIoU代价在盒关联和监督方面更优，这得益于我们的可微算法1。由于这三个标准偏好不同类型的点结构，因此对特定数据集来说，三个标准的简单组合可能并不总是最优的。(3)在没有盒预测监督的情况下，性能显著下降，主要是因为网络无法推断出满意的实例三维边界，预测的点掩模质量随之下降。(4)与焦点损失相比，由于实例和背景点数的不平衡，标准交叉熵损失对点掩码预测的效果较差。

4. 计算量分析

(1)基于点特征聚类方法包括SGPN [50], ASIS [51], JSIS3D [34], 3 d-bevis[8],例如[30],[28],post等聚类算法的计算复杂性的意思是[6]往往转向O (TN2),其中T是实例的数量和N的输入点。(2)对于基于密集提案的方法，包括GSPN[58]、3D-SIS[15]和PanopticFusion[33]，通常需要区域提案网络和非最大抑制来生成和删除密集提案，计算开销较大的[33]。(3) PartNet基线[32]和我们的3D-BoNet具有相似的高效计算复杂度O(N)。根据经验，我们的3D-BoNet需要大约20ms的GPU时间来处理4k点，而大多数方法(1)(2)需要超过200ms的GPU/CPU时间来处理相同数量的点。

相关工作

为了从三维点云中提取特征，传统方法通常手工制作特征[5;42]。目前基于学习的方法主要有基于体素的方法[42;46;41;23;40;11;4]和基于点的方案[37;19;14;16;45]。

语义分割 PointNet[37]在分类和语义分割上显示了领先的结果，但它没有捕捉上下文特征。为了解决这个问题，最近提出了许多方法[38;57;43;31;55;49;26;17]。另一种方法是基于卷积核的方法[55;27;47]。基本上，这些方法中的大多数都可以作为我们的骨干网络使用，并通过我们的3D-BoNet并行训练来学习每点语义。

目标检测 在三维点云中检测物体的常用方法是将点投影到二维图像上，返回边界盒[25;48;3;56;59;53]。在[3]中融合RGB图像进一步提高了检测性能[54;36;52]。点云也可以分为体素被用于对象检测[9;24;60]。然而，这些方法大多依赖于预定义的锚点和两阶段区域建议网络[39]。在三维点云上扩展它们是低效的。最近的PointRCNN[44]在不依赖锚点的情况下，学习通过前景点分割来检测，VoteNet[35]通过点特征分组、采样和投票来检测物体。相比之下，我们的盒预测分支与它们完全不同。我们的框架直接通过单一前向传递从紧凑的全局特征回归三维对象边界盒。

实例分割 SGPN[50]是第一个通过对点级嵌入进行分组在三维点云上分割实例的神经算法。ASIS[51]、JSIS3D[34]、MASC[30]、3D-BEVIS[8]和[28]使用相同的策略对点级特征进行分组，用于实例分割。Mo等人在PartNet[32]中介绍了一种对点特征进行分类的分割算法。然而，这些proposal-free方法的学习片段没有高的目标性，因为它没有显式地检测对象边界。在成功的二维RPN[39]和RoI[13]的基础上，提出了基于GSPN[58]和3D- sis[15]的三维实例分割方法。然而，他们通常依靠两阶段的训练和一个后处理步骤密集的提议修剪。相比之下，我们的框架直接为显式检测到的对象边界内的每个实例预测一个点级掩码，而不需要任何后处理步骤。

结论

该框架简单、有效、高效地实现了三维点云的实例分割。但也存在一定的局限性，对今后的工作有一定的指导意义。(1)最好设计一个模块来自动学习权重，以适应不同类型的输入点云，而不是使用三种准则的无加权组合。(2)不再训练单独的分支进行语义预测，而是引入更高级的特征融合模块，相互改进语义和实例分割。(3)我们的框架遵循MLP设计，因此不知道输入点的数量和顺序。借鉴最近的工作[10][22]，我们希望直接在大尺度输入点云上训练和测试，而不是分割小块。

Garcia • Kirlant

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
【文献翻译】3D-BoNet：学习点云上三维实例分割的对象边界盒

Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds摘要我们提出了一种新颖的、概念简单且通用的三维点云实例分割框架。我们的方法称为3D-BoNet，遵循逐点多层感知器(MLPs)的简单设计哲学。该框架直接回归点云中所有实例的3D边框，同时为每个实例预测点级掩模。它由一个骨干网络和两个并行网络分支组成，分别进行边界盒回归和逐点掩模预测。3D-BoNet是一个single-stage、anchor-free、
复制链接

扫一扫