【文献翻译】Contrastive Boundary Learning：对比边界学习在点云分割中的应用

Garcia • Kirlant

已于 2022-07-06 20:40:43 修改

阅读量815

点赞数

分类专栏： 3D点云实例分割文章标签：计算机视觉

于 2022-04-20 16:16:55 首次发布

本文链接：https://blog.csdn.net/WingNebula/article/details/124300530

版权

3D点云实例分割专栏收录该内容

10 篇文章 5 订阅

订阅专栏

本文研究了三维点云分割中场景边界的重要性，并提出对比边界学习(CBL)框架来改善分割性能。CBL通过对比多尺度场景背景下的点特征，增强跨边界点的特征识别，显著提升基线方法在边界区域和整体性能。实验结果证实了CBL的有效性及边界分割的改进作用。

摘要由CSDN通过智能技术生成

摘要

点云分割是理解三维环境的基础。然而，目前的三维点云分割方法对场景边界的分割效果较差，导致整体分割性能下降。本文主要研究场景边界的分割。因此，我们首先探索指标来评估分割性能的场景边界。针对边界分割性能不理想的问题，我们提出了一种新的对比边界学习(CBL)框架用于点云分割。具体地说，本文提出的CBL通过在多尺度场景背景的帮助下对比点的表征，增强了跨边界点之间的特征识别。通过在三种不同的基线方法上应用CBL，我们实验表明，CBL不断地改进不同的基线，并帮助它们在边界上取得引人注目的性能，以及整体性能，如mIoU。实验结果表明了该方法的有效性和边界对三维点云分割的重要性。代码和模型将在https://github.com/LiyaoTang/contrastBoundary上公开。

边界上的分割

由于目前的研究大多集中在改进一般指标，如平均交并比(mIoU)，整体精度(OA)，平均平均精度(mAP)，点云分割的边界质量往往被忽视。与最近边界相关的研究[15,28]只给出边界的定性结果不同，我们是第一个量化边界分割质量的。特别地，我们引入了一系列表示指标，包括mIoU@boundary、mIoU@inner和2D实例分割任务的边界IoU (B-IoU)分数。
在 $\; truth$ 的基础上，我们认为如果一个点的邻域内存在不同标注的点，则将该点视为边界点。同样，对于模型预测，如果存在具有不同预测标号的附近点，则将该点视为边界点。更正式地，我们将点云记为 $\mathcal X$ ，第 $i$ 个点记为 $x_i$ ，其局部邻域为 $\mathcal N_i = \mathcal N (x_i)$ ，对应的 $\; truth$ 标签为 $l_i$ ，模型预测标签为 $p_i$ 。我们进一步注意到 ground truth 中的边界点集 $\mathcal B_l$ 和预测分割中的边界点集 $\mathcal B_p$ ，因此我们有: $\mathcal B_l=\lbrace x_i \in \mathcal X \; | \;\exists x_j \in N_i,\; l_j \not= l_i \rbrace \qquad(1)$ $\mathcal B_p=\lbrace x_i \in \mathcal X \; | \;\exists x_j \in N_i,\; p_j \not= p_i \rbrace \qquad\quad$ 按照惯例，我们把 $\mathcal N_i$ 设为半径 $0.1$ 的邻域。
为了检验边界分割的结果，直观的方法是计算边界区域内的 $m I o U$ ，即 $m I o U @ b o u n d a r y$ 。为了进一步比较模型在边界区域和非边界(内部)区域的性能，我们进一步计算了内部区域的 $m I o U$ ，即 $m I o U @ i n n e r$ 。假设mIoU是在整个点云 $\mathcal X$ 上计算的： $mIoU(\mathcal X)=\frac{1}{K} \sum^K_{k=1}\frac{\sum_{x_i \in \mathcal X}1[p_i=k\wedge l_i=k]}{\sum_{x_i \in \mathcal X}1[p_j=k\vee l_j=k]} \qquad (2)$ 其中 $K$ 是总类别数； $1[\cdot]$ 表示一个布尔函数，如果 $[\cdot]$ 内的条件为真，则输出1，否则输出0； $m I o U @ b o u n d a r y$ 和 $m I o U @ i n n e r$ 定义如下： $mIoU@boundary=mIoU(\mathcal B_l) \qquad \quad$ $mIoU@inner=mIoU(\mathcal X-\mathcal B_l) \qquad (3)$ 其中 $\mathcal X-\mathcal B_l$ 是 inner 区域点的集合。
然而， $m I o U @ b o u n d a r y$ 和 $m I o U @ i n n e r$ 在模型预测分割中没有考虑错误边界。受二维实例分割的边界IoU启发，为了更好地评估，我们考虑了分割预测与地面真实数据中的边界之间的对齐。因此，B-IoU 评估定义如下： $B-IoU=\frac{\mathcal B_l \cap \mathcal B_p}{\mathcal B_l \cup \mathcal B_p} \qquad(4)$

方法

在本节中，我们将介绍对比边界学习(CBL)框架，如图2所示。它采用对比学习来增强跨边界特征识别。然后，为了深度增强模型在边界上的性能，我们通过子场景边界挖掘实现了下采样点云即子场景的CBL。

对比边界学习

在这里插入图片描述
我们根据广泛使用的 $I n f o N C E l o s s$ ¹及其泛化² ³定义边界点上的对比优化目标。特别地，对于一个边界点 $x_i \int \mathcal B_l$ ，我们鼓励学习到的表征和与它来自同一类别的邻域点更相似，并且与来自不同类别的其他邻居点更有区别。例如： $L_{CBL}=\frac{-1}{|B_l|}\sum_{x_i \in B_l}log \frac{\sum_{x_j \in \mathcal N_i \wedge l_j=l_i}exp(-d(f_i,f_j)/ \tau)}{\sum_{x_k \in \mathcal N_i}exp(-d(f_i,f_k)/ \tau)} \qquad(5)$ 其中 $f_i$ 是点 $x_i$ 的特征值， $d(\cdot,\cdot)$ 是距离测量值， $\tau$ 是对比学习中的温度。上式的对比学习只关注边界点，也就是图中的红色虚线圆。
首先，我们考虑公式(1)中定义的 $\; truth$ 的所有边界点 $\mathcal B_l$ 。然后，对于每个点 $x_i \in \mathcal B_l$ ，我们限制其正、负的抽样点都在其局部邻域 $\mathcal N_i$ 内。在这种强空间约束下，我们得到每个点 $x_i$ 都满足 $\lbrace x_j \in \mathcal N_i \wedge l_j = l_i \rbrace$ 的正点对，和邻域中剩余点组成的负点对 $\lbrace x_j \in \mathcal N_i \wedge l_j \not= l_i \rbrace$ 。因此，对比学习增强了跨场景边界的特征识别，对于改进边界区域的分割具有重要意义。

子场景边界挖掘

为了更好地探索场景边界，我们在多个尺度上检查下采样点云的边界，这使得骨干模型的不同子采样阶段的对比边界学习成为可能。从输入点云中收集边界点可以直接使用地面真实值标签。但分采样后，很难根据公式(1)得到合适的边界点集定义。由于下采样点的标签未定义，因此，为了实现下采样点云的CBL，我们提出了子场景边界挖掘，即确定每个子采样阶段的 $g r o u n d - t r u t h$ 边界点集。
具体地说，我们用上标来表示阶段。在次采样阶段 $n$ ，我们将其子采样点云表示为 $\mathcal X^n$ 。对于输入点云，有 $\mathcal X^0= \mathcal X$ 。当计算阶段 $n$ 的边界点集 $\mathcal B^n_l \in \mathcal X^n$ 时，需要确定子采样点集 $x^n_i \in \mathcal X^n$ 的标签 $l^n_i$ ，也就是子场景注释。每个子采样点集 $x^n_i \in \mathcal X^n$ 都是从它的前一个点云 $\mathcal X^{n-1}$ 中的一组点聚合而来的。因此，我们利用子抽样程序来迭代确定标签。我们取 $l^0_i$ 为点 $x^0_i = x_i$ 的 $\; truth$ 标签的一个热标签 $l_i$ ，有如下结果： $l^n_i=AVG(\lbrace l^{n-1}_j \; | \; x^{n-1}_j \in \mathcal N^{n-1}(x^n_i)\rbrace) \qquad (6)$ 其中 $\mathcal N^{n-1}(x^n_i)$ 定义了前一阶段中点 $x_i$ 的局部邻域(图2左侧的灰色圆形区域)，即从 $\mathcal X^{n-1}$ 集合的一组点，经过子抽样程序后，由单个点 $x^n_i \in \mathcal X^n$ 表示，AVG表示平均池化。通过公式(6)和 $g r o u n d - t r u t h$ 标签，我们可以迭代得到子场景注释 $l_i$ 作为一个分布，其第 $k$ 个位置描述了第 $k$ 个类在输入点云中对应的一组点中的比例。为了确定下采样点云 $\mathcal X^n$ 的边界点集，我们只需取 $max\; l^n_i$ 允许对公式(1)中的边界点进行评估，并利用下采样点的特征进行公式(5)中的对比边界优化。最后，对于子场景边界挖掘，我们在各个阶段都应用了CBL，最终损失定义如下： $L=L_{cross entropy} + \lambda \sum_n L^n_{CBL} \qquad (7)$ 其中 $L^n_{CBL}$ 是阶段 $n$ 的 $C B L$ 损失， $\lambda$ 是损失权重。

实现细节和 Baseline

由于三维ConvNet已经成为点云处理的一个流行的骨干模型，为了给出一个通用的实现，我们用一个ConvNet基线(图3)来举例说明CBL在点云处理中的应用。
在这里插入图片描述
我们在三维连续空间中构建卷积网络: $f_i=(h \circ g)(x_i)=\sum_{x_j \in \mathcal N_i}g(x_i-x_j)h(x_j) \qquad (8)$ 其中 $\circ$ 表示卷积操作，连续核函数 $g(\cdot)$ 近似为单层 MLP，集合 $h(x_j)=f_j$ 简单地利用了点 $x_j$ 的特征。我们注意到，与其他利用局部上下文的高级局部聚合模块相比，公式(8)中的3D卷积纯粹是基于中心点与其邻居之间的空间位置。为了更好地利用多尺度CBL优化的边界特征，我们使用多尺度头进行预测，它简单地将每个下采样点云的点特征连接到最后的输出层。正如我们在消融研究中所显示的，如果没有CBL，这种跨多个尺度的串联就失败了。请注意，CBL可以与任何其他多级骨干结合。具体来说，我们还将CBL应用于其他两个流行的基线:RandLA-Net和CloserLook3D，以演示其通用性。RandLA-Net利用随机抽样和细心的局部聚集对大规模场景进行快速处理;CloserLook3D提出了一个无参数的PosPool模块，该模块极大地减少了模型参数和资源消耗，同时实现了与其他具有参数聚合模块的方法(如KPConv)相比的性能。结合ConvNet基线，我们的实验覆盖了大多数典型的点云局部聚集方法的主干，从卷积、注意运算到无参数运算。对于训练，我们遵循基线的设置，并设置权重 $\lambda = 0.1$ 。更多细节将在附录中提供。

Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Representation learning with contrastive predictive coding,2018. ↩︎
Nicholas Frosst, Nicolas Papernot, and Geoffrey E. Hinton. Analyzing and improving representations with the soft nearest neighbor loss. In ICML, 2019. ↩︎
Michael Gutmann and Aapo Hyvarinen. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. Journal of Machine Learning Research-Proceedings Track, 9:297–304, 01 2010. ↩︎