Point Transformer V2: Grouped Vector Attention and Partition-based Pooling

原创

已于 2025-07-10 15:19:41 修改 · 867 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

于 2025-07-09 16:37:07 首次发布

文章目录

Abstract
Introduction
Related Works
Point Transformer V2
Experiments
Conclusion

paper
code

Abstract

作为探索用于三维点云理解的 Transformer 架构的开创性工作，Point Transformer 在多个极具竞争力的基准测试中取得了令人瞩目的成果。在本研究中，我们分析了 Point Transformer 的局限性，并提出了我们的强大且高效的 Point Transformer V2 模型，该模型采用了新颖的设计，克服了先前工作的局限性。特别是，我们首先提出了组向量注意力机制，它比之前的向量注意力机制更有效。继承了可学习权重编码和多头注意力的优势，我们通过一种新颖的分组权重编码层，实现了分组向量注意力的高度有效实现。此外，我们通过额外的位置编码乘数增强了注意力的位置信息。而且，我们设计了新颖且轻量级的基于分区的池化方法，这使得空间对齐更优，采样更高效。大量实验表明，我们的模型比其前身表现更优，并在多个具有挑战性的 3D 点云理解基准测试中达到了最先进的水平，包括 ScanNet v2 和 S3DIS 上的 3D 点云分割以及 ModelNet40 上的 3D 点云分类。

Introduction

点Transformer（PTv1）[1] 将自注意力网络引入到三维点云理解中。通过将向量注意力[2]与 U-Net 风格的编码器 - 解码器框架相结合，PTv1 在包括形状分类、目标部分分割和语义场景分割在内的多个三维点云识别任务中取得了显著的性能。

在这项工作中，我们分析了点Transformer（PTv1）[1] 的局限性，并提出了一种新的优雅且强大的骨干网络，名为点Transformer V2（PTv2）。我们的 PTv2 在 PTv1 的基础上进行了多项创新设计，包括改进了位置编码的高级分组向量注意力机制，以及高效的基于分区的池化方案。

在 PTv1 中，向量注意力层使用多层感知机（MLP）作为权重编码，将查询和键的减法关系映射为一个注意力权重向量，该向量可以调节值向量的各个通道。然而，随着模型深度的增加和通道数量的增多，权重编码参数的数量也会急剧增加，从而导致严重的过拟合，并限制了模型的深度。为了解决这个问题，我们提出了分组向量注意力，其参数效率更高，其中向量注意力被划分为具有共享向量注意力权重的组。同时，我们表明著名的多头注意力[3]和向量注意力[2， 1]都是我们所提出的分组向量注意力的退化情况。我们提出的分组向量注意力机制继承了向量注意力和多头注意力的长处，同时又更加强大且高效。

此外，点的位置提供了对于三维语义理解至关重要的几何信息。因此，三维点之间的位置关系比二维像素更为关键。然而，以往的三维位置编码方案大多遵循二维方案，未能充分利用三维坐标中的几何知识。为此，我们通过在关系向量上应用额外的位置编码乘数来强化位置编码机制。这种设计增强了模型中的位置关系信息，并且我们在实验中验证了其有效性。

此外，值得注意的是，点的不规则、不均匀的空间分布是点云处理中池化模块面临的重要挑战。以往的点云池化方法依赖于采样方法（例如最远点采样[4]或网格采样[5]）和邻域查询方法（例如kNN或半径查询）的组合，这种方式耗时且在空间上排列不理想。为了克服这一问题，我们不再局限于将采样和查询相结合的池化模式，而是将点云划分为不重叠的分区，直接在同一个分区内融合点。我们使用均匀网格作为分区划分工具，并取得了显著的改进。

总之，我们提出了 Point Transformer V2，它从多个方面对 Point Transformer [1] 进行了改进：

我们提出了一种有效的分组向量注意力（GVA）机制，该机制配备了一个新颖的权重编码层，能够实现不同注意力组内部以及组间的信息高效交换。
我们引入了一种改进的位置编码方案，以更好地利用点云坐标，并进一步增强模型的空间推理能力。
我们设计了基于分区的池化策略，与以往的方法相比，该策略能够实现更高效且在空间上更协调一致的信息聚合。

我们进行了大量的分析和控制实验以验证我们的设计。我们的研究结果表明，PTv2 比之前的成果表现更出色，并在各种 3D 理解任务中确立了新的领先水平。

Related Works

Image transformers

随着 ViT [6] 的取得巨大成功，卷积在视觉任务中的绝对主导地位被视觉 Transformer 打破，后者成为二维图像理解领域的一个趋势 [7, 8, 9, 10]。ViT 将在自然语言处理中广泛应用的深远的缩放点积自注意力和多头自注意力理论 [3] 引入到视觉领域，通过将图像块视为标记来考虑图像。然而，对整个图像进行全局注意力操作会消耗大量内存。为了解决内存消耗问题，Swin Transformer [7] 引入了基于网格的局部注意力机制，以在一系列移动窗口中操作 Transformer 块。

Point cloud understanding

基于学习的方法用于处理三维点云可分为以下几类：投影式、体素式和点式网络。处理像点云这样的不规则输入的一种直观方法是将不规则的表示形式转换为规则的形式。投影式方法将三维点云投影到各种图像平面上，并利用基于 2D 卷积神经网络的骨干网络来提取特征表示[11， 12， 13， 14]。另一种方法是通过将不规则的点云转换为规则的体素表示来在三维空间中进行卷积运算[15， 16]。这些体素式方法由于点云的稀疏性而效率低下，直到引入和实现稀疏卷积[17， 18]之后情况才有所改善。点式方法直接从点云中提取特征，而不是将不规则的点云投影或量化到二维或三维的规则网格上[19， 4， 20， 5]。在下一段中介绍的最近提出的基于Transformer的点云理解方法也归类为点式方法。

Point cloud transformers

基于Transformer的网络属于用于点云理解的基于点的网络类别。在视觉Transformer研究热潮兴起的同时，大约在同一时期，赵等人[1]和郭等人[21]发表了他们将注意力机制应用于点云理解的探索成果，成为了这一领域的先驱。郭等人提出的PCT[21]直接对点云进行全局注意力处理。与ViT类似，他们的工作受到内存消耗和计算复杂度的限制。同时，基于 SAN [2] 中提出的向量注意力理论，赵等人提出的 Point Transformer [1] 直接在每个点与其相邻点之间进行局部注意力处理，这缓解了上述提到的内存问题。Point Transformer 在多个点云理解任务中取得了显著成果，并在一些竞争挑战中取得了最先进的结果。在本工作中，我们分析了 Point Transformer [1] 的局限性，并为注意力和池化模块提出了几种新颖的架构设计，以提高 Point Transformer 的有效性和效率。我们提出的模型 Point Transformer V2 在各种 3D 场景理解任务中均优于 Point Transformer。

Point Transformer V2

我们分析了点Transformer V1（PTv1）[1] 的局限性，并提出了我们的点Transformer V2（PTv2），其中包括对 PTv1 的几个改进模块。首先，在第 3.1 节中我们介绍了数学公式，并回顾了 PTv1 中使用的向量自注意力机制。基于对 PTv1 的参数随着模型深度和通道大小的增加而急剧增加这一观察结果，我们在第 3.2 节中提出了我们强大且高效的分组向量注意力机制。此外，在第 3.3 节中我们介绍了改进的位置编码，在第 3.4 节中介绍了新的池化方法。最后，在第 3.5 节中描述了我们的网络架构。

最低0.47元/天解锁文章