学习周报：Boundary-aware Feature Propagation for Semantic Segmentation of 3D Point Clouds 论文精读

最新推荐文章于 2024-07-25 22:24:14 发布

m0_73898398

最新推荐文章于 2024-07-25 22:24:14 发布

阅读量101

点赞数

文章标签：学习 3d

本文链接：https://blog.csdn.net/m0_73898398/article/details/132698492

版权

三维点云的语义分割旨在为每个点标记一个语义类别(例如，建筑物，树木，窗户)，这是3D计算机视觉中的一项基础但具有挑战性的任务。成功解读3D点云的语义是自动驾驶[42]、机器人[5]和城市环境建模[3]等各种应用的关键先决条件。

在深度学习和全卷积网络（FCN）在2D图像识别中取得成功的推动下，已经提出了许多用于3D点云语义分割的工作，通过将点转换为规则网格或体素作为标准FCN的输入[9，20，25，27，35，38]。这种方法引入了额外的计算成本和信息损失，从而导致性能不佳。为了避免这种情况，开创性的PointNet[23]直接消耗点云，并通过一系列共享的多层感知器(mlp)提取点特征。在PointNet之后，引入了许多基于点的深度学习框架[12,17,18,32,34]。尽管它们在语义分割任务中表现出色，但它们在特征传播中存在一个经常被忽视的局限性:解码过程中局部信息的丢失。具体来说，由于大多数现有网络采用类似FCN的结构和编解码策略，编码器中池化层的存在可以捕获具有更多接受域的分层语义特征。

虽然有利于对象级识别，但它会导致较低分辨率下的粗糙特征映射。在解码器中，这些粗特征然后被传播回原点

通过最近邻上采样的最终分辨率，忽略了不同语义类别之间的点级变化。结果，网络失去了物体边界的细节，无法产生准确的预测。图1显示了模糊对象边界的分割输出。一些研究在二维和三维领域的语义分割方面都做了卓有成效的尝试。一种尝试是通过马尔科夫随机场(MRFs)和条件随机场(CRFs)等图形模型构建上下文亲和力[4,45]。然而，这些方法引入了mrf和crf作为附加模块，很难集成到网络中。考虑到边界在语义分割中发挥着重要作用，因为它们自然地表示不同语义类别的对象之间的转换，另一种方法利用网络中的边界信息[6,7,10,13,44]。这些方法大多将率边界检测作为语义分割的辅助分支。在共享编码器的情况下，这两个任务可以相互改进。然而，这些方法并不寻求明确地处理语义分割。另一个缺点是需要额外的编码层来合并两个任务的特征，这对网络来说更具挑战性，因为涉及到更多的参数。

与现有的工作相反，我们的工作主要是通过明确地将边界推向所需的方向来尝试改进语义分割。最近在二维图像识别中研究了预测方向方案来细化语义分割[21,41]，尽管在这些工作中方向主要作为后处理工具来细化生成的语义标签。为了克服这些限制，我们提出了一种新的端到端框架，用于联合边界检测、方向预测和语义分割。提出的网络有一个FCN特征编码器，同时联合给出三个点预测流:(i)边界标签(即二进制预测)，(ii)从最近的边界出发并指向对象内部的方向向量，以及(iii)语义类标签。我们证明，尽管FCN架构主要针对语义分割进行了优化，但它确实为边界检测和方向预测这两个任务提供了判别特征。我们的框架的关键是一个轻量级的引导机制，它有效地融合了边界和方向信息，以细化分割。我们的动机是减少框架解码器中局部信息的丢失。在解码层内，我们建议在目标边界附近使用预测方向(即从边界指向内部)来引导特征传播。通过这种方式，可以防止不同语义类的特征混合，同时明确地将语义边界沿期望的方向推进。我们的贡献可以概括为两方面:

•据我们所知，所提出的网络是第一个端到端的框架，用于联合语义分割、边界检测和3D领域的方向预测。边界检测和方向预测任务可以适当地改善分割输出。
•我们引入了一种新的边界感知特征向上采样策略，以引导特征向靠近目标边界的预测方向传播，该策略可以很容易地插入到现有框架中。

2. 相关工作
2.1. 点云语义分割
针对点云的语义分割，已经提出了几种方法。它们大致可以分为基于投影的、基于体素的和基于点的方法。
基于投影的方法首先将点投影到指定的二维平面上，然后应用二维fcn来识别三维物体[9,27,38,39]。这些方法由于在2D投影中丢失了第z维的信息，不能充分利用数据，限制了它们在3D场景中分析复杂3D物体的能力。

基于体素的方法将点云离散在体积三维网格上，使用标准的3D fcn进行形状分类和语义分割[20,25,35]。这种方法需要进行数据转换，由于网格结构的分辨率有限，会带来额外的计算成本和信息损失。此外，体素表示对GPU内存的要求也很高，限制了其在单个对象和小场景中的应用。与上述两种方法相比，基于点的方法直接将点云作为网络的输入，并在各种数据集上显示出良好的性能。PointNet[23]是第一个在这个方向上成功尝试的，它采用一系列mlp和最大池化算子来学习全局特征，这些特征可用于3D形状分类和场景分割。poinnet++[24]递归地在点的嵌套划分上应用PointNet来学习局部几何结构的细粒度细节。除了mlp，还有一些研究[14,18,32,34]探讨了点云上的三维卷积算子。另一项研究也利用图卷积网络(GCNs)和自注意机制从局部邻域图补丁中获取点的上下文知识[15,17,26,33,43]。我们的工作建立在类似fcn的架构上，如pointnet++[24]和KP-Conv[32]，旨在解决这些网络中局部边界细节的丢失问题。

2.2. Boundary-aware分割
标准的类fcn语义分割网络无法建立点级精确的目标边界，主要原因是在特征编码和解码层中都严重丢失了底层特征。引入了许多作品来锐化物体边界。
在二维图像识别中，边界神经场[2]利用全局能量模型来增强与预测边界线索的语义段一致性。还有一些工作将语义分割任务和边界检测任务合并为一个网络[6,10,19,28,29,40]，其中两个任务共享一个共同的特征编码器，并期望相互改进。在三维领域，边界感知策略也被一些研究采用。JSENet[44]采用额外的特征增强模块，这些模块需要一个课程学习策略来获得良好的分割性能。CBL[30]引入了额外的损失项来对比场景边界上的特征。与此相反，我们的工作侧重于网络解码中的内部信息通道。我们证明了引导特征传播可以自然地恢复边界附近的信息，而不需要外部约束或额外的训练模块。一些作品[7,36]通过自适应方法或预处理模块解决了3D边界检测问题。相反，我们的方法不将边界视为中间结果。它联合学习边界线索来指导特征传播，可以很容易地插入到现有的网络中。

2.3. 分割的图形模型
在二维领域，一些研究提出将mrf和crf等图形模型集成到网络中进行分割细化[4,16,45]。基于

由于具有相似特征的像素往往具有相同的语义标签，这一行的工作将分割表述为使用图模型的概率推理问题。虽然这些方法可以锐化目标边界附近的分割掩码，但将额外的mrf和crf集成到网络中仍然具有挑战性。另一方面，这种策略需要额外的计算成本，因此速度较慢。

3. 方法
我们的网络由一个FCN特征编码器组成，然后是三个任务流的分支:(i)边界检测，(ii)方向预测(即，对于每个点，我们从其最接近的边界预测到物体的方向向量)，以及(iii)语义分割。然后融合(i)和(ii)的输出，以边界感知的方式指导特征传播。图2概述了我们的体系结构。下面，我们将详细解释每一部分。

3.1. 体系结构
我们使用KP-Conv[32]作为我们的骨干网络，它直接使用核点卷积在3D点云上应用全卷积层。在4.1节中，我们还提供了采用其他基线网络作为骨干网的分割实验，如pointnet++[24]。
边界检测流。对于输入点云P RN×F，其中N是点的数量，F是输入特征维度，该流预测一个二进制映射B RN×2，边界上的点为1，内部的点为0。注意，我们在这个任务中提到了语义边界(即不同语义类别之间的边界)。由于边界点只占整个点集的一小部分，我们使用加权二元交叉熵损失来监督这个任务。

方向预测流。预测方向
最近在二维领域研究了改进语义分割的方案[21,41]。这些工作需要对方向向量进行单独的学习，然后作为后处理技术来改进分割输出。在这项工作中，我们将方向方案扩展到3D领域，并以端到端方式学习它。方向流预测一个方向图D RN×3，每一行(dx, dy, dz)给出一个单位方向矢量，从最近的边界指向物体内部。这样设计，学习后的D为每个点生成一个指向其内部均匀区域的指针。我们将反向预测视为回归任务，因此采用均方误差损失进行监督。将预测方向与边界预测进一步融合，以指导语义分割任务流中的特征传播。

3.2. 边界感知特征传播
fcn采用池化层，逐步对样本点进行子采样，在潜在空间中获得高级语义特征。在随后的解码阶段，特征从子采样点传播到原始点。一种常见的传播策略是基于局部k近邻(kNN)的等距插值。例如，PointNet++[24]使用k = 3进行特征传播，而KP-Conv[32]使用k = 1减少到最近邻特征上采样。标准特征传播假定空间上相近的点也具有语义亲和力。然而，它忽略了跨对象边界的剧烈语义转换。边界处的点会继承不同对象的信息，导致特征表示模糊，不利于最终的分割。我们使用预测的边界和方向来指导特征在解码层中的传播，其中特征被鼓励沿着所需的方向传递以生成纯化的特征映射。引导特征传播如图3所示。在FCN解码器中，特征从较稀疏的高层点向上采样到较密集的低层点。我们将第10层的xj点的特征传播到第1 - 11层的xi点。特征传播由
Fl−1(x) = σ(Φ(j=1)⊕Fl−1(x))， (1)
其中，x R3表示一个三维点，k是相邻点的总数。首先对第l层相邻点xj的解码器特征fl(xj)根据相应的权重w进行插值，然后与跳过链接的编码器特征相连接，这些编码器特征将通过MLP层和Relu激活函数得到新的特征fl−1(xi)。fskip为跳过链接特征，Φ()为MLP算子，σ()为ReLU激活函数。我们计算一个自适应权项w来指导特征传播过程，

w(xj) = max(0, ws(xj, xi) + αwc(xj, xi)), (2)

s j i

w (x , x ) = exp −||xj − xi||2 ,

wc(xj, xi) = exp(Pb(xi) − 1) cos(xj − xi, di),

我们的传播策略在三个方面支持语义分割。(i)对于边界附近的点(即pb1)，我们赋予与方向对齐的邻居显著的重要性，同时消除相反邻居的影响，鼓励特征沿着期望的方向传播。(ii)对于内部点(即Pb为0)，第二个余弦项大大减少。所有邻居对特征传播的贡献主要取决于它们到中心的距离。因此，我们便于在对象内部进行平滑分割。(iii)我们设计的权值项是B和D上的连续函数，这有助于网络的梯度反向传播。在第4.3节中，我们进行了烧蚀研究，以进一步验证所提出的边界感知特征传播机制的有效性。
3.3. 网络监督
我们的网络涉及三个任务(见图2)，它们分别使用三个损失项进行监督。
边界检测损失。边界检测是一项二元分类任务。由于数据集中边界点的稀疏性，我们采用加权二值交叉熵损失来监督该任务。
N
磅=−[βˆ我日志bi +(1−β)(1−bˆ我)日志(1−bi)), (4)
i = 1

式中b * i为GT二元标号，即边界点为1，内部点为0。Bi为第i点的网络softmax输出。我们使用系数β来平衡边界类和对象内部类。

方向预测损失。与之前的二维图像分割工作[41]不同，我们在整个空间中进行连续预测，而不是通过将整个方向均匀地划分为一组范围来预测离散方向。因此，我们的预测更适用于复杂的3D场景。具体来说，我们将方向预测作为一个回归任务，并采用MSE损失进行监督，即:
L = Σ∥d−d³∥2，(5)

其中di R3是预测方向，di R3是GT方向(两个方向都有一个单位大小)。我们还测试了di和d1的点积损失，而我们的实验表明MSE损失具有鲁棒性
方向预测对数据集规模变化较小。
语义分割损失。我们使用标准交叉熵损失来监督语义分割流，
其中ys RK表示第i点的Ground Truth (GT)语义标签s的单热向量。ps(xi)是由网络softmax层得到的GT类别上第i点的预测概率。
因此，总网络损耗为
L = ls + λ1lb + λ2ld， (7)
我们用λ1和λ2来平衡不同的损失。
3.4. 实现细节和参数
我们的方法在Pytorch中实现[22]。对于超参数，我们在式2中设置引导特征传播的α = 1.0, r = 0.125。为了监督方程4中的边界流，我们设β = 0.6。对于式7中的权重，我们设λ1 = 3.0， λ2 = 0.3。
4. 实验
评价设置。我们评估了我们的方法在3D点云语义分割方面的有效性，我们使用了两种最先进的网络架构作为我们的主干:pointnet++[24]和KP-Conv[32]。Pointnet++在点云的嵌套划分上递归地应用逐点MLP算子来获得分层点特征。相比之下，KP-Conv探索三维欧几里德空间中的点卷积。这两种方法都采用了类似fcn的架构和编码解码策略。
我们的实验是在室内和室外场景的数据集上进行的。我们使用标准指标，包括总体精度(OA)，平均交叉Union (mIoU)和每个类别的IoU分数进行评估。为了实现公平的每类比较，我们对所有实验使用标准的未加权交叉熵损失，并采用与原始相应基线方法相同的实验设置。
地基真值边界图和方向图。GT边界图和方向图都是直接从原始数据集中提取的。为了生成GT边界图，我们对数据集中的每个点使用kNN搜索(我们经验地设置k = 4)。如果它的语义标签与其任何相邻点不同，我们将其识别为边界点。为了生成GT方向图，我们为每个点搜索最近的边界点，并将方向指定为从最近的边界点指向当前点的方向。我们使用归一化的方向向量(即长度为1)作为我们的GT进行训练。

4.1. 室内场景的语义分割
对于室内场景，我们使用具有挑战性的斯坦福大规模3D室内空间(S3DIS)数据集[1]进行评估。S3DIS是一个用于室内场景语义分析的大规模数据集。每个点都用13个类别(例如，天花板，桌子，窗户)的语义标注。由于S3DIS数据集包含大量无法直接分割的点，因此这两种基线方法都被有意设计为在下采样数据上进行训练和测试。我们遵循与基线网络相同的数据采样策略。此外，为了与之前的工作[17,23,32,43]保持一致，我们还使用区域5进行测试，其余区域用于培训。
在表1中，我们报告了两个基线和相应网络之间的性能比较。这些方法要么只使用3D坐标和颜色信息(w/o N)来训练，要么使用3D坐标、颜色信息和法线(w/ N)来训练。我们考虑使用法线信息来训练网络，因为它们有助于区分边界点和非边界点。与基线相比，我们的边界感知特征传播机制在OA和mIoU得分方面都取得了一致的改进。仅使用3D坐标和颜色信息进行训练，我们的方法在骨干网Point- Net++和KP-Conv的情况下分别获得0.3%和1.7%的mIoU增益。当使用三维坐标、颜色信息和法线进行训练时，我们的方法在骨干网PointNet++和KP-Conv下分别获得了1.2%和1.6%的mIoU增益。具体来说，我们观察到在列、窗、门和板等类别中有显著的改进，这些类别在基线方法中难以实现准确的边界描绘

ods。在某些情况下，我们的方法还可以在更大程度上传播分割错误，导致某些类别(例如板)的mIoU分数下降。然而，定性结果表明，我们的分割输出更正则化的形状(章节4.4)。在补充材料中，我们在S3DIS基准中与其他最先进的作品进行了更多的比较。
4.2. 户外场景的语义分割
对于户外场景，我们使用最新的SensatUr- ban数据集[11]进行评估。SensatUrban是一个大型无人机摄影测量点云数据集，由来自英国三个城市的近30亿个点组成，这些点具有细粒度的语义标签(例如，建筑物，高植被，铁路)。遵循SensatUrban基准，我们使用伯明翰区块1和5，以及剑桥区块7和10进行验证。我们使用伯明翰2号和8号街区，以及剑桥15号、16号、22号和27号街区进行测试。其余的瓦片用于训练。我们使用KP-Conv[32]作为我们的主干在SensatUrban上进行实验。
在表2中，我们将我们的方法与KP-Conv和其他最先进的方法进行了比较。我们的方法取得了93.9%的OA和59.7%的mIoU，优于该基准上所有开创性的竞争对手。结果表明，我们的方法可以推广到大规模的户外城市场景。与最先进的基线KP- Conv[32]相比，使用我们的边界感知特征传播策略将其mIoU提高了2.1%。就每个类别的性能而言，大多数类别也可以观察到改进，特别是在表现出明显几何边界的类别中，例如桥梁，道路和人行道。由于Sen- satUrban数据集中的类不平衡，表中列出的大多数方法都无法成功识别少数类别，如rail和bike。我们还观察到水类的性能下降(与基线相比，IoU为20.8%)。这是由于城市场景中的水通常具有不规则的几何边界，这导致在边界检测和方向预测中存在噪声估计，从而导致分割精度降低。

4.3. 消融实验
在本节中，我们将详细介绍消融研究来支持我们的贡献。我们使用S3DIS数据集，因为我们可以访问所有点的GT语义标签。我们采用KP-Conv[32]作为骨干网进行消融研究。与之前的作品[17,23,32,43]一样，我们使用Area 5进行测试，其余区域进行训练。所有实验均在与4.1节相同的超参数设置下进行。
表3为烧蚀实验结果。从该表中，我们观察到将边界流添加到基线可使mIoU提高1.0%，OA提高0.1%。将方向流添加到基线可以使mIoU提高0.8%，但略微降低OA(0.1%)，并且将三个流与标准特征传播相结合可以使OA增加0.2%，mIoU比基线增加0.7%。与只加入边界流相比，同时加入边界流和方向流的mIoU减小了0.3%。尽管如此，方向流为下一步的分割细化提供了重要的信息。使用提出的边界感知特征传播机制，我们观察到两个指标都增加了，即OA增加了0.4%，mIoU增加了1.6%。这表明更有效的特征被继承以产生纯化的特征映射。
4.4. 定性评价
在本节中，我们给出了在S3DIS[1]和Sen- satUrban[11]数据集上实现的语义场景分割的定性结果。
图4给出了在室内数据集S3DIS上的分割结果。我们的联合学习和边界感知特征传播策略有效地减少了窗口、列和板等几种目标类别在边界附近的分割误差。为了进一步了解

Method	OA(%)	mIoU(%)
(1) Baseline network	89.2	65.6
(2) Baseline + Boundary Stream	89.3	66.6
(3) Baseline + Direction Stream	89.1	66.2
(4) Full network with SFP	89.4	66.3
(5) Full network with GFP	89.6	67.2

表3为(1)至(5)消融网络的mIoU评分。SFP为标准特征传播，GFP为注释引导特征传播。所有网络都使用3D坐标、颜色信息和法线进行训练。

为什么简单地用预测的方向指导特征传播可以显著提高性能，我们通过可视化在边界检测和方向预测流中学习到的内容来超越数字。可视化结果表明，尽管预测的边界和方向与地面真实情况不完全匹配，但它们仍然为特征在解码层中的传播提供了信息指导。
图5展示了SensatUrban数据集上的分割结果，其中没有显示真值标签，因为我们无法访问测试集中的真值标签。然而，与基线结果的比较仍然表明，我们的方法对停车场和人行道等次要类别的边界局部化效果更好。
4.5. 限制
我们提出的方法联合进行边界预测、方向预测和语义分割。通过采用轻量级的特征传播引导机制，我们的方法可以生成清晰的特征映射，有效地减少了边界区域的分割误差。然而，它有几个限制。首先，在邻域内进行特征传播，在局部水平上提高了目标内部特征的一致性。然而，它不能保证长范围内全局级的特征一致性。其次，由于我们的工作侧重于引导特征在解码层中恢复边界信息，自然无法应对特征编码层中的信息丢失。最后，我们的方法需要额外的预处理步骤(即生成用于训练的GT边界图和方向图)。

5. 结论
我们提出了一种新的边界感知特征支持机制，以改进3D点云的语义分割，从而将边界推到所需的位置。我们的网络端到端共同学习边界图、方向图和逐点语义标签。对S3DIS和Sen- satUrban数据集的广泛研究已经证明了我们方法的有效性。我们的实验和分析揭示了两个因素有助于提高语义分割。首先，三个任务的联合学习相互改进了共享特征编码器。其次，预测的边界和方向可以有效地引导点从更均匀的区域继承特征，弥补了fcn解码层中局部边界信息的损失。我们的方法对具有清晰几何边界的物体(如门、窗和街道)特别有效。
然而，由于局部执行的特征传播不能在全局范围内优化分割输出，因此所取得的改进仍然有限。另一方面，由于三个下游任务具有不同的复杂程度，将它们合并到一个网络中限制了共享特征编码器学习所有任务的鉴别特征的能力。在未来，我们将探索自适应边界检测方法[36]来改进语义分割。我们还想使用自监督学习技术扩展我们的边界感知特征传播机制。

ground high vegetation building wall footpath parking

rail traffic road street furniture car bridge bike water

Input point clouds Baseline results Our results

图5:SensatUrban数据集[11]上的语义分割定性结果，使用三维坐标和颜色进行训练。

确认
这项工作得到了代尔夫特理工大学人工智能倡议资助的3D城市理解实验室的支持。

在本文中，我们提供了更多关于网络实现的细节，对引导特征传播的额外研究，在复杂性和运行时间方面与基线的比较，以及与更先进的作品和S3DIS基准的比较。最后，我们给出了更定性的结果。
a .实施细节
数据采样。S3DIS和SensatUrban都是大型3D场景数据集，对于基线网络来说，这些数据集太大而无法直接处理。为了处理这样的数据，Poinet- Net++在每个场景中随机抽取固定数量的点(即4096个)进行网络训练。KP-Conv首先使用网格采样来减少输入点的数量。对于训练，它随机抽取场景中的3D球体作为网络批次的输入。在测试中，用一个潜在项对球体进行有规律的重复，以确保网络可以从不同的球体位置多次看到点。最后，将网格采样云上的语义预测转移到原始云上。我们遵循与基线网络相同的数据采样策略，表1对此进行了进一步的详细说明。
网络培训。我们保持所有的训练设置与基线网络相同，例如梯度下降优化的动量、基本学习率和学习率调度。表1详细说明了这一点

	Settings	PointNet++	KP-Conv
	Settings	S3DIS	S3DIS	SensatUrban
Data	sampling strategy	random	grid + sphere
	points per scene	4096	-	-
	grid size	-	5cm	20cm
	sphere radius	-	1.5m	9.0m
Training	base learning rate	0.001	0.01	0.01
	scheduler	70% per 10 epochs	98% per 1 epoch
	momentum	-	0.98	0.98
	batch size	16	6	6
	steps per epoch	2973	300	600
	epochs	32	500	550

Table 1: Details of data pre-processing and network training.

特征传播细节。我们将第16层的相邻点xj的特征传播到第11层的点xi。对于GFP，使用本文方法学部分介绍的权重函数来传播特征(见第3.2节中的公式(2))。对于SFP，我们使用局部邻域的逆距离加权，即:

邻域的大小。对于SFP，我们使用一个固定的半径来搜索局部邻居，因为它比kNN对变化的点密度具有更强的鲁棒性。第一层的基础半径设置为6.25cm，并在下一层增加两倍。对于GFP，由于预测的方向和边界自然有助于减少离群值的影响，我们使用kNN代替。我们经验地使用k = 8。
得到的分割分数如表2所示

GFP layers	SFP layers	OA(%)	mIoU(%)
-	up1, up2, up3, up4	89.4	66.3
up1	up2, up3, up4	89.6	67.2
up1, up2	up3, up4	89.7	66.9
up1, up2, up3	up4	89.6	66.6
up1, up2, up3, up4	-	89.4	66.0

表2:各解码层采用GFP的消融网络的OA和mIoU得分。SFP:标准特征传播。GFP:我们的引导特征传播。实验在S3DIS数据集上进行，以KP-Conv为主干，使用三维坐标、颜色信息和法线进行训练。

在不同的特征上采样层中应用GFP。通过在第一层上采样采用GFP，在其余层采用SFP，我们获得了最高的mIoU分数，这已经在论文中报道过。当在更高层用GFP替换SFP时，我们观察到性能略有下降。当所有上采样层都采用GFP时，性能达到最低。我们对这种行为的见解是，GFP是为恢复局部边界细节而设计的，这解释了它在应用于低级上采样层时的有效性。而在高层中，由于SFP在特征传播过程中很好地保留了全局特征，因此更有效。

c .收敛与效率
我们将网络的收敛性和效率与基线进行了比较。结果如表3所示。

PointNet++

S3DIS

KP-Conv

S3DIS SensatUrban

#Params Baseline

(M) Ours

0.97

2.19

24.38

32.78

24.38

32.78

Training time

(sec./batch)

Baseline

Ours

0.52

0.64

0.09

0.14

0.13

0.20

Inference time

(sec./batch)

Baseline

Ours

0.71

0.82

0.05

0.07

0.08

0.10

表3:在S3DIS和SensatUrban数据集上与基线的运行时间比较。可学习参数的总数是模型复杂度的指标。我们使用每批平均运行时间作为效率指标。所有实验均使用NVIDIA RTX2080Ti GPU进行。

与基线相比，我们的网络具有明显更多的pa参数，因为我们为三个下游任务使用了单独的解码器。因此，它在训练和测试中都比较慢。与PointNet++相比，训练时间和推理时间分别增加了23%和15%。与KP-Conv相比，我们注意到训练时间平均增加了55%，而infer-平均增加了33%
ence时间。
虽然具有更高的复杂性，但我们观察到网络的收敛速度更快。图2展示了这一点，我们将网络的分割损失和验证曲线可视化。我们可以看到，我们的网络收敛速度略快于基线(即，300次对400次)。

Baseline: Ours:

图2:网络收敛性对比。横轴表示训练时代的数量。统计数据是在S3DIS数据集上获得的，使用KP-Conv作为主干，使用3D坐标、颜色信息和法线进行训练。

d .关于S3DIS基准的更多比较
表4给出了在S3DIS基准测试上与更先进的作品的性能比较。虽然与点变换相比，我们的性能不是最好的[43]，但我们的工作有助于深入了解解码中的特征传播，以改进常用的网络。实验和对比验证了所提出的特征传播策略的有效性。

Method	OA(%)	mIoU(%)
PointNet [23]	-	41.1
TangentConv [31]	82.5	52.8
SPGraph [17]	86.4	58.0
BGENet [7]	-	61.4
RandLA-Net [12]	87.2	62.4
IAFNet [36]	88.4	64.6
JSENet [13]	-	67.7
Point Transformer [43]	90.8	70.4
PointNet++ [37] (w/o N)	83.5	53.6
+ ours	83.6	53.9
PointNet++ [37] (w/ N)	83.9	53.9
+ ours	84.3	55.1
KP-Conv rigid [32] (w/o N)	-	65.4
+ ours	89.7	67.1
KP-Conv rigid [32] (w/o N)	89.2	65.6
+ ours	89.6	67.2

表4:在S3DIS数据集上与其他最先进作品的语义分割性能比较。BGENet、IAFNet和JSENet也考虑边界。RandLA-Net的结果来自CBL论文[30]。

e .更多定性结果
在本节中，我们将在室内和室外场景中呈现更多定性结果。图3显示了在SensatUrban数据集上获得的可视化结果。

图3:SensatUrban数据集的语义分割定性结果，使用三维坐标和颜色进行训练。我们的方法获得了更精确的边界(第一行和第二行)。它在识别具有不同几何边界的次要类(如人行道(第三行和第四行))方面也表现得更好。

图4和图5分别展示了采用KP-Conv和pointnet++作为主干的S3DIS数据集的定性对比结果。在所有这些比较中，我们的引导特征传播机制在语义分割方面表现出一致的改进。

m0_73898398

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习周报：Boundary-aware Feature Propagation for Semantic Segmentation of 3D Point Clouds 论文精读

三维点云的语义分割旨在为每个点标记一个语义类别(例如，建筑物，树木，窗户)，这是3D计算机视觉中的一项基础但具有挑战性的任务。成功解读3D点云的语义是自动驾驶[42]、机器人[5]和城市环境建模[3]等各种应用的关键先决条件。在深度学习和全卷积网络（FCN）在2D图像识别中取得成功的推动下，已经提出了许多用于3D点云语义分割的工作，通过将点转换为规则网格或体素作为标准FCN的输入[9，20，25，27，35，38]。这种方法引入了额外的计算成本和信息损失，从而导致性能不佳。为了避免这种情况，开创
复制链接

扫一扫