[论文简述+翻译]PointConv: Deep Convolutional Networks on 3D Point Clouds(CVPR 2019)

最新推荐文章于 2024-04-17 10:09:06 发布

Javier.Lin_HUST

最新推荐文章于 2024-04-17 10:09:06 发布

阅读量904

点赞数 1

分类专栏： 3D点云文章标签：计算机视觉深度学习人工智能 Powered by 金山文档

本文链接：https://blog.csdn.net/qq_40279050/article/details/128870178

版权

3D点云专栏收录该内容

20 篇文章 1 订阅

订阅专栏

论文简述：

第一作者：Wenxuan Wu

发表年份：2019

发表期刊：IEEE Conference on Computer Vision and Pattern Recognition(CVPR)

探索动机：与规则稠密网格表示的图像不同，三维点云是不规则和无序的，因此对其进行卷积是困难的。

工作目标：提出一种在非均匀采样的三维点云上执行卷积的新方法。

核心思想：

提出了Point Conv，一种密度重加权卷积，能够在任意三维点集上完全逼近三维连续卷积。

设计了一种内存有效的方法来使用求和顺序的变化来实现Point Conv,最重要的是允许它扩展到现代CNN级别。

将Point Conv扩展为反卷积版本( Point Deconv )，以获得更好的分割结果。

实现方法：1、将传统卷积扩展到点云，称为Point Conv。Point Conv是对三维连续卷积算子蒙特卡罗近似的扩展。对于每个卷积滤波器，它使用MLP来近似一个权重函数，然后对学习到的权重函数应用一个密度尺度二次加权。2、引入Point Deconv，使用Point Conv层对反卷积特征进行处理。3、提出了一种新的重构方法来实现Point Conv，将其简化为矩阵乘法和二维卷积两种标准操作。这种新颖的技巧不仅利用了GPU的并行计算优势，同时易于使用主流的深度学习框架实现。

实验结论：在这项工作中，我们提出了一种新的方法来对三维点云进行卷积操作，称为PointConv。Point Conv在局部点坐标上训练多层感知机来逼近卷积滤波器中连续的权重和密度函数，使其具有天然的排列不变性和平移不变性。这使得深度卷积网络可以直接在三维点云上构建。我们提出了一种高效的实现方案，大大提高了其可扩展性。我们展示了其在多个具有挑战性的基准测试集上的强大性能，以及在二维图像中匹配基于网格的卷积网络性能的能力。

论文下载：https://openaccess.thecvf.com/content_CVPR_2019/papers/Wu_PointConv_Deep_Convolutional_Networks_on_3D_Point_Clouds_CVPR_2019_paper.pdf

代码下载：https://github.com/DylanWusee/pointconv.

论文翻译：

PointConv: Deep Convolutional Networks on 3D Point Clouds

摘要：

与规则稠密网格表示的图像不同，三维点云是不规则和无序的，因此对其进行卷积是困难的。本文将动态滤波器扩展为一种新的卷积操作，命名为PointConv。Point Conv可应用于点云构建深度卷积网络。我们将卷积核视为3D点局部坐标的非线性函数。这个非线性函数由权重和密度函数组成。对于给定的点，通过核密度估计，利用多层感知器网络和密度函数学习权重函数。这项工作最重要的贡献是提出了一种新的重新制定方法，以有效地计算权重函数，从而使我们能够大幅扩大网络的规模，并显著提高其性能。学习到的卷积核可用于计算三维空间中任意点集上的平移不变和置换不变卷积。此外，Point Conv还可以作为反卷积算子，将下采样点云的特征传播回原始分辨率。在ModelNet40、ShapeNet和ScanNet上的实验表明，基于PointConv构建的深度卷积神经网络能够在具有挑战性的三维点云语义分割基准上取得先进水平。此外，我们将CIFAR - 10转换为点云的实验表明，在Point Conv上构建的网络可以匹配卷积网络在类似结构的二维图像中的性能。

1、引言

在最近的机器人、自动驾驶和虚拟/增强现实应用中，能够直接获取三维数据的传感器越来越普遍。这包括激光扫描仪等室内传感器，Kinect、RealSense或Google Tango等飞行时间传感器，iPhoneX上的结构光传感器，以及LIDAR和MEMS传感器等室外传感器。在这些应用中，直接测量三维数据的能力是非常宝贵的，因为深度信息可以消除二维图像中的许多分割模糊，表面法线提供了场景几何的重要线索。

在二维图像中，卷积神经网络( Convolutional Neural Networks，CNNs )通过极大地改善几乎每一个视觉任务的结果，从根本上改变了计算机视觉的面貌。CNN利用平移不变性获得成功，使得同一组卷积滤波器可以应用在图像中的所有位置，减少了参数数量，提高了泛化性。我们希望这样的成功能转移到三维数据的分析上。然而，三维数据往往以点云的形式出现，点云是一组无序的三维点，具有或不具有额外的特征(例如：点云)。Rgb )。点云是无序的，不符合二维图像中的规则格网。在这种无序的输入上应用传统的CNN是很困难的。另一种方法是将三维空间视为体素网格，但在这种情况下，体素将是稀疏的，CNNs将在高分辨率体上计算困难。

在本文中，我们提出了一种在非均匀采样的三维点云上执行卷积的新方法。我们注意到卷积操作可以看作是连续卷积算子的离散近似。在三维空间中，我们可以将该卷积算子的权重视为局部三维点坐标关于参考三维点的( Lipschitz )连续函数。连续函数可以用多层感知器( MLP )来逼近，如[ 33 ]和[ 16 ]所做的。但是这些算法没有考虑到非均匀采样。我们提出使用逆密度尺度对MLP学习到的连续函数进行二次加权，对应连续卷积的蒙特卡罗近似。我们称这样的操作为Point Conv。Point Conv是以点云的位置作为输入，学习一个MLP来近似一个权重函数，并在学习到的权重上应用逆密度尺度来补偿非均匀采样。

当输出特征的通道规模很大，难以训练和扩展到大型网络时，Point Conv的最初的版本是内存低效的。为了减少Point Conv的内存消耗，我们介绍了一种通过改变求和顺序的方法，这种方法可以极大地提高内存效率。新结构能够在3D点云上构建多层深度卷积网络，在栅格图像上具有与2D CNN类似的能力。我们可以实现与二维卷积网络相同的平移不变性，以及对点云中点的排列顺序的不变性。

在分割任务中，由粗到细逐层传递信息的能力至关重要。因此，能够充分利用从粗层到细层的特征的反卷积操作[ 24 ]对性能至关重要。大多数先进的算法[ 26、28]无法执行反卷积，这制约了它们在分割任务上的性能。由于我们的Point Conv是卷积的全近似，自然地将Point Conv扩展为Point Deconv，可以充分直到粗层的信息传播到细层。通过使用Point Conv和Point Deconv，我们可以在语义分割任务上获得更好的性能。

本文的贡献在于：

•我们提出了Point Conv，一种密度重加权卷积，能够在任意三维点集上完全逼近三维连续卷积。

•我们设计了一种内存有效的方法来使用求和顺序的变化来实现Point Conv，最重要的是允许它扩展到现代CNN级别。

•我们将Point Conv扩展为反卷积版本( Point Deconv )，以获得更好的分割结果。

实验表明，我们在Point Conv上构建的深度网络与其他点云深度网络相比具有很高的竞争力，在零件分割[ 2 ]和室内语义分割基准[ 5 ]中取得了最先进的结果。为了证明我们的PointConv确实是一个真正的卷积操作，我们还在CIFAR - 10上评估了PointConv，将二维图像中的所有像素转换为具有二维坐标和每个点上RGB特征的点云。在CIFAR - 10上的实验表明，我们的Point Conv的分类精度与具有类似结构的图像CNN相当，远远超过了之前点云网络取得的最佳结果。作为3D数据CNN的基本方法，我们相信Point Conv可能有很多潜在的应用。

2、相关工作

大多数关于3D CNN网络的工作将三维点云转换为二维图像或三维体网格。[ 36、27]提出将三维点云或形状投影到若干二维图像中，然后应用二维卷积网络进行分类。尽管这些方法在形状分类和检索任务上取得了显著的性能，但将其扩展到高分辨率场景分割任务上并非易事[ 5 ]。[ 43,23,27]代表了另一种通过量化将点云体素化为体网格，然后应用三维卷积网络的方法。这类方法受到其三维体积分辨率和三维卷积计算成本的限制。[ 31 ]通过使用一组不平衡八叉树，其中每个叶子节点存储一个池化的特征表示，显著提高了分辨率。Kd -网络[ 18 ]在一定规模的Kd -树上自下而上地计算前馈表示。在Kd网络中，训练和测试时点云中点的输入数量需要相同，这对于很多任务并不适用。SSCN [ 7 ]利用基于体素网格的卷积，只考虑输入点上的CNN输出，具有新颖的速度/内存改进。然而，如果对点云进行稀疏采样，特别是当采样率不均匀时，由于稀疏采样区域上可能无法在体素卷积滤波器中找到任何邻域，这可能会导致显著的问题。

一些最新的工作[ 30,26,28,35,37,13,9,39]直接将原始点云作为输入，无需将其转换为其他格式。[ 26、30]提出使用共享多层感知器和最大池化层来获取点云的特征。由于最大池化层适用于点云中的所有点，因此很难捕获局部特征。Pointnet++[ 28 ]对点网络[ 26 ]中的网络进行了改进，增加了层次结构。该分层结构类似于图像CNNs中使用的分层结构，从小的局部区域开始提取特征，并逐渐扩展到更大的区域。Pointnet[ 26 ]和Pointnet++[ 28 ]中用于聚合不同点特征的关键结构都是最大池化。然而，最大池化层仅保留了局部或全局区域中最强的特征激活，这可能会丢失一些对分割任务有用的细节信息。文献[ 35 ]提出了一种将点云的输入特征投影到高维格点上，然后在高维格点上应用双边卷积进行特征聚合的方法，称为" SPLATNet "。SPLATNet [ 35 ]能够给出与Pointnet++[ 28 ]相当的结果。切卷积[ 37 ]在每个点周围的切平面上投影局部曲面几何，给出一组平面可卷积的切线图像。逐点卷积[ 13 ]在飞行中查询最近邻点并将点分解成核细胞，然后在分解成的细胞上应用核权重对点云进行卷积。Flex-convolution [ 9 ]引入了传统卷积层的泛化，并采用了高效的GPU实现，可以适用于数百万点的点云。FeaStNet [ 39 ]提出通过增加一个软分配矩阵将传统卷积层泛化到三维点云。PointCNN [ 21 ]是从输入点中学习一个χ -变换，然后使用它来同时加权和填充与点相关的输入特征。与我们的方法相比，Point CNN无法实现对点云的置换不变性。

工作[ 33、16、41、12、40]和[ 44 ]提出学习连续滤波器来进行卷积。文献[ 16 ]提出二维卷积中的权重滤波器可以看作连续函数，可以用MLPs来近似。文献[ 33 ]首次将该思想引入到三维图结构中。文献[ 40 ]将文献[ 33 ]中的方法扩展到分割任务并提出了高效版本，但是他们的高效版本只能近似深度卷积代替真实卷积。动态图CNN [ 41 ]提出了一种可以动态更新图的方法。文献[ 44 ]提出了一种特殊的滤波器组来近似权重函数，而不是使用MLP。文献[ 12 ]提出了一种考虑密度的三维卷积的Monta Carlo近似。我们的工作有3个不同之处。最重要的是，我们的高效版本的真实卷积在之前的工作中从未被提出过。此外，我们使用了不同于[ 12 ]的密度，并提出了一个基于PointConv的反卷积算子来进行语义分割。

3、PointConv

我们提出了一种卷积操作，将传统的图像卷积扩展到点云，称为Point Conv。Point Conv是对三维连续卷积算子蒙特卡罗近似的扩展。对于每个卷积滤波器，它使用MLP来近似一个权重函数，然后对学习到的权重函数应用一个密度尺度二次加权。3.1节介绍了Point Conv层的结构。3.2节引入Point Deconv，使用Point Conv层对反卷积特征进行处理。

3.1 三维点云上的卷积

形式上，卷积定义如式(1),对于d维向量x的函数 $\text{[math]}$ 和 $\text{[math]}$ 有：

图像可以理解为二维离散函数，通常表示为网格状矩阵。在CNN中，每个滤波器被限制在一个小的局部区域内，如3 × 3、5 × 5等。在每个局部区域内，不同像素之间的相对位置总是固定的，如图1( a )所示。并且该滤波器可以很容易地离散为对局部区域内的每个位置具有实值权重的求和。

图1。图像格网VS点云。( a )在一幅图像中显示一个5 × 5的局部区域，其中点与点之间的距离只能得到很少的离散值；( b )和( c )表明在一个点云内的不同局部区域，顺序和相对位置可以有很大的不同。

点云表示为三维点集 $\text{[math]}$ ，其中每个点包含一个位置矢量 $\text{[math]}$ 及其颜色、表面法线等特征。

与图像不同，点云有更加灵活多变的形状。点云中点的坐标 $\text{[math]}$ 不是位于固定网格上，而是可以取任意连续值。因此，每个局部区域内不同点的相对位置是不同的。传统的栅格图像上的离散化卷积滤波器不能直接应用在点云上。图1显示了图像中的局部区域与点云的区别。

图2。Point Conv的二维权函数。( a )是一个学习的连续权函数；( b )和( c )是二维点云中不同的局部区域。给定2d个点，我们可以获得特定位置的权重。同样适用于3D点。规则的离散二维卷积可以看作是连续卷积权重函数的离散化，如( d )所示。

为了使卷积与点集兼容，我们提出了一种置换不变卷积操作Point Conv。我们的想法是首先回到连续版本的3D卷积：

式中： $\text{[math]}$ 为以点 $\text{[math]}$ 为中心的局部区域G中点的特征。从连续的 $\text{[math]}$ 空间中，点云可以看作是一个非均匀样本。在每个局部区域内， $\text{[math]}$ 可以是局部区域内的任意可能位置。定义Point Conv如下：

式中： $\text{[math]}$ 为 $\text{[math]}$ 点的反密度，由于点云可以是非均匀采样，因此需要 $\text{[math]}$ 。直观的来看，如图2 ( b )和( c )所示，局部区域的点数在整个点云中变化。此外，在图2 ( c )中，点p3，p5，p6，p7，p8，p9，p10彼此非常接近，因此它们的贡献应该较小。

我们的主要思想是通过三维坐标 $\text{[math]}$ 的多层感知器来近似权重函数 $\text{[math]}$ ，通过核密度估计[ 38 ]来近似逆密度 $\text{[math]}$ ，然后通过MLP实现非线性变换。由于权重函数高度依赖于输入点云的分布，我们将整个卷积操作称为Point Conv。[16、33]考虑了权重函数的近似，但没有考虑密度尺度的近似，因此不是连续卷积算子的全近似。我们关于密度的非线性变换也不同于[ 12 ]。

Point Conv中MLP的权重在所有点之间共享，以保持置换不变性。为了计算逆密度尺度 $\text{[math]}$ ，我们首先使用核密度估计( KDE )离线估计点云中每个点的密度，然后将其输入到MLP中进行一维非线性变换。使用非线性变换的原因是为了网络自适应地决定是否使用密度估计。

图3为K点局部区域上的Point Conv操作。令 $\text{[math]}$ ， $\text{[math]}$ 分别为输入特征和输出特征的通道数，k， $\text{[math]}$ ， $\text{[math]}$ 分别为第k个近邻的索引、第 $\text{[math]}$ 个通道的输入特征索引和第 $\text{[math]}$ 个通道的输出特征索引。输入为点 $\text{[math]}$ 的三维局部位置，可以通过减去局部区域的质心坐标和局部区域的特征 $\text{[math]}$ 来计算。我们使用1 × 1卷积来实现MLP。权重函数的输出为 $\text{[math]}$ 。因此， $\text{[math]}$ 是一个向量。密度尺度为 $\text{[math]}$ 。经过卷积后，来自K个邻域点的局部区域的特征 $\text{[math]}$ 被编码为输出特征 $\text{[math]}$ ，如式(4 )所示。

Point Conv学习一个网络来近似连续的权重进行卷积。对于每个输入点，我们可以使用其相对坐标计算来自MLPs的权重。图2 ( a )展示了一个用于卷积的连续权重函数示例。将一个点云输入作为连续输入的离散化，通过图2 ( b )计算一个离散卷积来提取局部特征，对于不同的点云样本(图2 ( b-d))，包括规则的网格（图2（d））

注意在栅格图像中，局部区域的相对位置是固定的。然后Point Conv (它只将相对位置作为权重函数的输入)在整幅图像上输出相同的权重和密度，归结为传统的离散卷积。

为了聚合整个点集中的特征，我们使用了一种分层结构，能够将详细的小区域特征组合成覆盖更大空间范围的抽象特征。我们使用的分层结构由多个特征编码模块组成，类似于Pointnet++中使用的分层结构[ 28 ]。每个模块大致相当于一个卷积CNN中的一层。每个特征编码模块中的关键层分别为采样层、分组层和PointConv。更多细节可参见补充材料。

这种方法的缺点是每个滤波器需要用一个网络来近似，因此非常低效。在第4节中，我们提出了一种有效的方法来实现Point Conv。

3.2 利用反卷积进行特征传播

对于分割任务，我们需要逐点预测。为了获得所有输入点的特征，需要一种将特征从下采样点云传播到更稠密点云的方法。Pointnet++ [ 28 ]提出使用基于距离的插值来传播特征，这是合理的，因为局部区域内部存在局部相关性。然而，这并没有充分利用反卷积操作来从粗糙层捕捉所传播信息之间的局部相关性。我们提出在Point Conv的基础上增加一个Point Deconv层，作为反卷积操作来解决这个问题。

如图4所示，PointDeconv由插值和PointConv两部分组成。首先，我们使用插值来传播前一层的粗特征。根据文献[ 28 ]，通过从最近的3个点对特征进行线性插值来进行插值。然后，使用跳跃链接将插值后的特征与来自具有相同分辨率的卷积层的特征级联。拼接完成后，对拼接后的特征应用Point Conv，得到最终的反卷积输出，类似于图像反卷积层[ 24 ]。我们应用这个过程直到所有输入点的特征都传播回原始分辨率。

4、高效的Point Conv

Point Conv的初始版本实现耗费内存且效率低下。与文献[ 33 ]不同的是，本文提出了一种新的重构方法来实现Point Conv，将其简化为矩阵乘法和二维卷积两种标准操作。这种新颖的技巧不仅利用了GPU的并行计算优势，同时易于使用主流的深度学习框架实现。由于逆密度不存在这样的记忆问题，下面的讨论主要围绕权重函数展开。

图3。Point Conv。( a )表示点的坐标从全局变换到局部坐标的局部区域，p为点的坐标，f为对应的特征；( b )展示了在以一个点 $\text{[math]}$ 为中心的局部区域上进行PointConv的过程。输入特征来自以 $\text{[math]}$ 为中心的K近邻， $\text{[math]}$ 处的输出特征为 $\text{[math]}$ 。

图4。特征编码与传播。该图显示了特征如何在网络中编码和传播，用于m类分割任务。n是每层的点数，c是特征的通道大小。

具体地，令B为训练阶段的小批量尺寸，N为点云中的点数，K为每个局部区域的点数， $\text{[math]}$ 为输入通道数， $\text{[math]}$ 为输出通道数。对于一个点云，每个局部区域共享相同的权重函数，可以使用MLP进行学习。然而，由不同点的权重函数计算得到的权重是不同的。MLP生成的权值滤波器的大小为 $\text{[math]}$ 。假设B = 32，N = 512，K = 32， $\text{[math]}$ = 64， $\text{[math]}$ = 64，滤波器以单点精度存储。那么，仅一层滤波器的内存大小为8GB。如此高的内存消耗将使网络难以训练。[ 33 ]使用了非常小的网络和很少的过滤器，显著降低了其性能。为了解决这个问题，我们基于以下引理提出了一个内存高效的Point Conv版本：

引理1 PointConv等价于以下公式： $\text{[math]}$ 其中 $\text{[math]}$ 是MLP中最后一层的输入，用于计算权重函数， $\text{[math]}$ 是同一个MLP中最后一层的权重，Conv1 × 1是1 × 1卷积。

证明：通常，MLP的最后一层是线性层。在一个局部区域内，令 $\text{[math]}$ ，并将MLP改写为一个1 × 1的卷积，使得权重函数的输出为 $\text{[math]}$ 。令k为局部区域中点的索引， $\text{[math]}$ 、 $\text{[math]}$ 、 $\text{[math]}$ 分别为输入层、中间层和滤波器输出层的索引。则 $\text{[math]}$ 为来自W的向量， $\text{[math]}$ 为来自H的向量。( 4 )式中，Point Conv可表示为( 5 ) .

通过对式子（5）进行更加细致的探究。权重函数的输出可以表示为：

将式子（6）带入到式子（5）中：

这样，原Point Conv可以等价地化简为矩阵乘法和1 × 1卷积。图5为Point Conv的高效版本。

在该方法中，我们将权重滤波器分为中间结果M和卷积核H两部分，而不是将生成的滤波器存储在内存中。可以看到，内存消耗减少到原始版本的 $\text{[math]}$ 。在与图3相同的输入设置下，令 $\text{[math]}$ ，内存消耗为0.1255 GB，约为原始Point Conv的1 / 64。

图5。高效Point Conv . PointConv在一个具有K个点的局部区域上的内存高效版本。

图6。零件分割结果。对于每一对对象，左边的对象为真实对象，右边的对象由PointConv进行预测。

表2 . ShapeNet部件数据集上的结果。class avg .是所有对象类别的平均IoU，instance avg .是所有对象的平均IoU

5、实验

为了评估我们的新型PointConv网络，我们在几个广泛使用的数据集上进行实验，ModelNet40 [ 43 ]，ShapeNet [ 2 ]和ScanNet [ 5 ]。为了证明我们的PointConv能够完全逼近传统卷积，我们也在CIFAR - 10数据集上报告了结果[ 19 ]。在所有实验中，我们使用Adam优化器在GTX 1080Ti GPU上使用Tensorflow实现模型。除最后一个全连接层外，在每一层之后应用ReLU和BN。

5.1在Modelnet40上进行分类

ModelNet40包含40个人工地物类别的12 311个CAD模型。我们使用9，843个形状的官方分割进行训练，2，468个用于测试。按照[ 26 ]中的配置，我们使用点网络[ 26 ]的源代码对1，024个点进行均匀采样并计算网格模型的法向量。为了公平比较，我们采用与[ 26 ]相同的数据增强策略，沿z轴随机旋转点云，并通过零均值和0.02个标准差的高斯噪声对每个点进行抖动。在表1中，PointConv在基于3D输入的方法中取得了最好的性能。与我们的方法类似的ECC [ 33 ]无法扩展到大型网络，这限制了它们的性能。

5.2 Shapenet零件分割

零件分割是一项具有挑战性的细粒度三维识别任务。ShapeNet数据集包含16个类别共计50个部分的16881个形状。任务的输入是由点云表示的形状，目标是为点云中的每个点分配一个零件类别标签。给出了每个形状的类别标签。我们遵循大多数相关工作[ 28、35、44、18]中的实验设置。利用已知的输入三维物体类别，将可能的零件标签缩小到特定于给定物体类别的标签是常见的。我们还计算了每个点上的法线方向作为输入特征，以更好地描述底层形状。图6可视化了部分样本结果。

与PointNet + + [ 28 ]、SPLATNet [ 35 ]和其他部分分割算法[ 45、18、44、7]一样，我们使用点交并比( IoU )来评估PointConv网络。结果见表2。PointConv获得了82.8 %的类平均mIoU和85.7 %的实例平均mIoU，与仅以点云为输入的先进算法相当。根据文献[ 35 ]，SPLATNet2D - 3D也将渲染的2D视图作为输入。由于我们的PointConv仅以3D点云作为输入，为了公平比较，我们只与文献[ 35 ]中的SPLATNet3D进行比较。

5.3 语义场景标注

ModelNet40 [ 43 ]和ShapeNet [ 2 ]等数据集是人工合成的数据集。正如我们在上一节中看到的，大多数先进的算法都能够在这类数据集上获得相对较好的结果。为了评估我们的方法在处理包含大量噪声数据的真实点云时的能力，我们使用ScanNet数据集评估了我们的PointConv在语义场景分割上的表现。该任务是给定以点云表示的室内场景，预测每个3D点上的语义对象标签。最新版本的ScanNet [ 5 ]包括所有1513个ScanNet扫描的更新注释和100个新的测试扫描，所有语义标签都是公开不可用的，我们将结果提交给官方评估服务器，以与其他方法进行比较。

我们将我们的算法与Tangent卷积[ 37 ]、SPLAT Net [ 35 ]、PointNet + + [ 28 ]和ScanNet [ 5 ]进行了比较。上述所有算法均将其在新的ScanNet数据集上的结果报告给基准，且算法的输入仅使用3D坐标数据加上RGB。在我们的实验中，我们从室内随机采样3m × 1.5m × 1.5 m的立方体生成训练样本，并在整个扫描过程中使用滑动窗口进行评估。我们报告交并比( IoU )作为我们的主要衡量指标，与基准相同。将部分实例语义分割结果可视化如图7所示。mIoU见表3。mIoU是所有类别中IoU的平均值。本文的Point Conv算法明显优于其他算法(表3 )。Point Conv在GTX1080Ti上训练ScanNet一个历元的总运行时间约为170s，8 × 8192个点的评估时间约为0.5 s。

图7。语义场景标注示例。从左至右依次为输入场景、地面真值分割、Point Conv预测。为了更好的可视化，将点云转换为网格格式。

5.4 在CIFAR-10上进行分类

在3.1节中，我们声称PointConv可以与2D CNN等价。如果是这样的话，那么基于Point Conv的网络性能应该与栅格图像CNN相当。为了验证这一点，我们使用CIFAR - 10数据集作为对比基准。我们将CIFAR - 10中的每个像素看作一个具有xy坐标和RGB特征的二维点。点云将在训练和测试前被缩放到单位球里

实验表明，CIFAR - 10上的Point Conv确实具有与2D CNN相同的学习能力。表4为图像卷积和Point Conv的结果。从表中可以看出，Point CNN [ 21 ]在CIFAR - 10上的准确率仅为80.22 %，远差于图像CNN。而对于5层网络，使用Point Conv的网络能够达到89.13 %，与使用图像卷积的网络相当。而采用VGG19 [ 34 ]结构的Point Conv也能达到与VGG19相当的精度。

6、消融实验和可视化

在这一部分，我们进行了额外的实验来评估PointConv每个方面的有效性。除了对PointConv的结构进行消融研究外，我们还在ScanNet数据集上对PointConv的性能进行了深入分析。最后，我们为可视化提供了一些学习到的过滤器。

6.1 MLP的结构

在这一部分，我们设计实验来评估PointConv中MLP参数的选择。为了快速评估，我们从ScanNet数据集中生成一个子集作为分类任务。子集中的每个示例从原始场景扫描中随机采样1 024个点。ScanNet数据集共有20种不同的场景类型。我们在PointConv中对Cmid的不同选择和MLP的不同层数进行了实验。每个实验重复3次。结果可以在补充中找到。从结果中我们发现较大的Cmid并不一定能给出较好的分类结果。并且MLP中不同的层数对分类结果影响不大。由于 $\text{[math]}$ 与每个Point Conv层的内存消耗线性相关，这一结果表明我们可以选择一个合理小的 $\text{[math]}$ 以获得更大的内存效率。

6.2 逆密度尺度

在这一部分，我们研究了逆密度尺度S的有效性。由于ScanNet中的点云是由真实的室内场景生成的，我们选择ScanNet作为我们的评估任务。我们遵循作者提供的标准训练/验证分割。我们训练了如Sec所述的具有和不具有逆密度尺度的网络。3.1。结果见表5。可以看出，采用反密度尺度的Point Conv比不采用反密度尺度的Point Conv的表现要好1 %左右，证明了反密度尺度的有效性。在我们的实验中，我们观察到在更接近输入的层中，逆密度尺度往往更有效。在深层，MLP倾向于学习减弱密度尺度的影响。一个可能的原因是，使用最远点采样算法作为我们的子采样算法，更深层的点云更趋于均匀分布。如表5所示，在ScanNet数据集上，直接使用密度而不使用非线性变换的结果比不使用密度的结果差，说明非线性变换能够学习数据集中的逆密度尺度。

表5 .基于ScanNet的消融研究。有无RGB信息、反密度尺度和使用不同步长的滑动窗口。

6.3 ScanNet消融研究

可以看出，本文的Point Conv优于其他方法，且具有较大的优势。由于我们只允许将算法的一个最终结果提交给ScanNet的基准服务器，因此我们使用文献[ 5 ]提供的公共验证集对Point Conv进行了更多的消融研究。对于分割任务，我们从3m × 1.5m × 1.5 m中随机抽取8 192个点训练Point Conv，并通过在3m × 1.5m × 1.5 m的立方体中以滑动窗口的方式穿过xy平面，以不同的步幅大小穷举所有点来对模型进行评估。为了鲁棒性，我们在所有的实验中都使用了5个窗口的多数票。从表5可以看出，较小的步长可以改善分割结果，而ScanNet上的RGB信息似乎并没有显著改善分割结果。即使没有这些额外的改进，Point Conv仍然大大优于基线。

6.4 可视化

图8展示了从Point Conv中的MLP学习到的滤波器。为了更好地可视化滤波器，我们通过z = 0平面对学习到的函数进行采样。从图8中，我们可以看到学习到的连续滤波器中的一些模式。

图8。学习了卷积滤波器。MLPs在ShapeNet上学习到的卷积滤波器。为了更好的可视化，我们从z = 0平面取所有权重滤波器。

7、结论

在这项工作中，我们提出了一种新的方法来对三维点云进行卷积操作，称为PointConv。Point Conv在局部点坐标上训练多层感知机来逼近卷积滤波器中连续的权重和密度函数，使其具有天然的排列不变性和平移不变性。这使得深度卷积网络可以直接在三维点云上构建。我们提出了一种高效的实现方案，大大提高了其可扩展性。我们展示了其在多个具有挑战性的基准测试集上的强大性能，以及在二维图像中匹配基于网格的卷积网络性能的能力。在未来的工作中，我们希望使用Point Conv将更多主流的图像卷积网络架构用于点云数据，如Res Net和Dense Net。

Javier.Lin_HUST

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
[论文简述+翻译]PointConv: Deep Convolutional Networks on 3D Point Clouds(CVPR 2019)

与规则稠密网格表示的图像不同，三维点云是不规则和无序的，因此对其进行卷积是困难的。本文将动态滤波器扩展为一种新的卷积操作，命名为PointConv。Point Conv可应用于点云构建深度卷积网络。我们将卷积核视为3D点局部坐标的非线性函数。这个非线性函数由权重和密度函数组成。对于给定的点，通过核密度估计，利用多层感知器网络和密度函数学习权重函数。这项工作最重要的贡献是提出了一种新的重新制定方法，以有效地计算权重函数，从而使我们能够大幅扩大网络的规模，并显著提高其性能。
复制链接

扫一扫