【2019CVPR学习】翻译-Graph Attention Convolution for Point Cloud Semantic Segmentation

最新推荐文章于 2024-06-07 09:45:14 发布

小白不怕

最新推荐文章于 2024-06-07 09:45:14 发布

阅读量5.2k

点赞数 1

分类专栏： 2019CVPR

本文链接：https://blog.csdn.net/qing_mm/article/details/103349510

版权

本文介绍了一种针对点云语义分割的新型图形注意卷积（GAC）算法，以克服标准卷积在处理点云时的局限性。GAC能动态调整卷积核形状，根据邻域特征有选择地关注相关部分，避免特征污染。通过在点云的图形表示上实现GAC，构建了端到端的GACNet网络，实验证明其在点云语义分割任务中的有效性和优越性。

摘要由CSDN通过智能技术生成

Graph Attention Convolution for Point Cloud Semantic Segmentation-原文链接

翻得不好，欢迎批评指正。

摘要

标准卷积因为有着特征各向同性而在点云语义分割方面有着内在的局限性。本文提出一种卷积核可以动态调整成适应目标结构的形状的图形注意卷积（GAC）。GAC根据动态学习的特征有选择地关注其中最相关的部分。卷积核的形状由学习到的注意权重贡献决定。GAC可以捕获点云的结构化特征进行细粒度分割以及避免目标之间的特征污染。我们对GAC的表现能力进行了深入的分析，以展示它如何了解点云的特征。

Introduction

点云语义分割的目标是为每个点分配类别标签，这对3D理解是重要且具有挑战性的任务。最近的方法试图从网格域推广卷积神经网络到无组织的点云。然而，因为卷积核关于邻点特征的各向同性，这些工作对于点云语义分割有内在局限性。直观地，学习到的位于两目标边界上的点的特征实际上是来自这两个目标而不是它真正应该属于的类别，这导致了标签分配的模糊。

事实上，标准卷积核作用在规律的特征响应接受域，卷积权重固定在卷积窗口内的特定位置。这种位置决定的权值导致了卷积核的各向同性。例如，在图1中，点1处的学习特性模糊地描述了其相邻的点，这种标准卷积的局限性忽略了属于同一对象的点之间的结构联系，导致对象的轮廓性差，分割结果中有小的虚假区域。为解决上述问题，本文基于标准卷积的位置确定权，学习根据邻域的特征属性来掩盖或弱化部分卷积权，使卷积核动态适应点云的结构。在本文中通过提出一种新的GAC来实现，即选择性地关注接受域中邻域中最相关的部分。具体来说，受注意机制的启发，GAC被设计为通过将不同的相邻点的空间位置和特征属性相结合来动态地分配适当的注意权重。卷积核的形状由注意权的学习分布决定。最后，与网格域的标准卷积一样，我们的GAC也可以在点云的图形表示上有效地实现。在图像分割网络的基础上，利用该算法训练了一个端到端的图形注意卷积网络（GACNet），用于语义点云的分割。值得注意的是，使用条件随机场（CRF）对CNN输出进行后处理实际上已经成为语义分割的一个事实标准[45，5，9，2]。然而，通过结合空间和特征约束来产生注意权重，GAC与CRF具有相同的属性，这支持了相似点之间的标签一致性。因此，拟议的GACNet不再需要CRF。我们的贡献如下：

•我们提出了一种新的具有可学习核形状的图形注意卷积算法，以动态适应对象的结构；

•我们对所提出的图形注意卷积算法的性能和有效性进行了深入的理论和实证分析；

•我们使用所提出的GAC训练了一个端到端的图形注意卷积网络，用于点云语义分割，并通过实验证明了其有效性。

2 相关工作

本节将从三个主要方面讨论相关的前期工作：点云深度学习、图形卷积和深度学习中的CRF。

点云深度学习。虽然深度学习已经成功地应用于二维图像中，但对于具有不规则数据结构的三维点云，探索其特征学习能力仍面临许多挑战。目前对这一问题的研究主要有基于体素化的[25，49]、基于多视图的[43，24]、基于图的[7，51，42]和基于集的方法[33，35]。

基于体素化的方法[50，30]旨在将点云空间离散成规则的空间占有网格，以便3D卷积可以像图像一样应用。这些基于全体素的方法不可避免地会导致信息丢失，以及内存和计算消耗，因为它相对于体素的分辨率呈立体增长。为了降低这些基于全体素的方法的计算成本，OctNet [38]和Kd Net[20]被设计成通过跳过对空体素的计算并聚焦于信息体素来解决这些问题。基于多视图的方法[43、24、18]将点云表示为从多个视图渲染的一组图像。然而，如何确定视图的数量和分布以覆盖三维对象，同时避免相互遮挡，目前还不清楚。基于图的方法[7，51]首先根据点云的空间邻域将其表示为一个图，然后推广标准CNN以适应图形结构数据。Shen等人。[40]定义了一个点集核为一系列可学习的联合响应邻域点的三维点，根据它们的几何相似性由核相关度量。3DGNN[36]将图形神经网络应用于RGBD数据。然而，由于其聚集函数的各向同性，3DGNN很难适应不同结构的对象。ECC[42]和SPG[23]提出根据边缘标签（权重）生成卷积滤波器，以便信息可以在图上的特定方向传播。然而，ECC和SPG只能捕获一些特定的结构，因为这些边缘标签（权重）是预定义的。得益于集合上深度学习的发展[33，52，37]，研究人员最近通过首先从每点多层感知器（MLP）计算单个点特征，然后将所有特征聚合为点云的全局表示来构造有效且简单的直接学习非点集[35，12]。基于集的方法可以直接在点层次上使用，并且对刚性变换具有鲁棒性。然而，它忽略了点之间的空间邻接关系，而点之间的空间邻接关系包含了用于语义分割的细粒度结构信息。

图形卷积。关于图卷积的相关工作可分为谱方法和非谱方法。谱方法处理依赖于拉普拉斯矩阵特征分解的图的谱表示[19，10]。在谱图理论的谐波分析中，相应的特征向量可以看作是傅里叶基。谱卷积可以定义为图[8]上两个信号傅里叶变换的元素乘积。这种谱卷积不能保证滤波器的空间局部化，因此需要昂贵的计算[41，17]。此外，由于谱方法与其对应的拉普拉斯矩阵相关联，在一个图上学习的谱CNN模型不能转化为具有不同的拉普拉斯矩阵的其他图。非谱方法的目的是直接定义空间域或流形域中具有局部邻域的图的卷积。非谱方法的关键是定义一组应用于每个顶点邻