「论文阅读」Point Transformer（ICCV_2021_paper_Zhao）

最新推荐文章于 2025-04-29 14:02:33 发布

小麋鹿跑了

最新推荐文章于 2025-04-29 14:02:33 发布

阅读量8.3k

点赞数 10

分类专栏：深度学习点云处理文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/u013609289/article/details/122906946

版权

论文介绍了Point Transformer Layer，一种适用于3D点云处理的自注意力层，具有顺序和数量不变性。该层结合位置编码，构建了高性能的Point Transformer Networks，用于点云的分类和密集预测。实验表明，模型在多个数据集上的表现超越了现有工作，证实了Transformer在点云理解中的潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

Point Transformer Layer

Position Encoding

Point Transformer Block

作者提出，Transformer模型特别适合于点云处理，因为自注意力是Transformer的核心，本质上是一个集合算子：它对输入元素具有顺序不变性和数量不变性，因此，将自注意力机制用于点云是自然而然的，因为点云本质上是嵌入在3D空间的集合。

我们将这种直觉具体化，并开发了一个用于3D点云处理的自注意层。

该文章的主要贡献在于：

1.为点云处理设计了一个表达能力非常强的Point Transformer Layer。该层具有顺序不变性和数量不变性，因此天生适合点云处理。

2.在Point Transformer Layer的基础上，构建了高性能的Point Transformer networks，用于点云的分类和密集预测（dense prediction，为什么要预测密度呢?没懂）。这些网络可以作为3D场景理解的一般骨干。

3.我们在多个领域和数据集上进行了实验，并选出了模型设计中的一些最优实现，实验结果超过之前的工作。

作者说道：自注意力本质上是一个集合操作符：位置信息作为元素的属性提供，这些元素被作为集合处理。由于3D点云本质上是具有位置属性的点集，因此自注意机制似乎特别适合于这类数据。

另外，证明了位置编码在大尺度点云点云理解中的重要性。

首先，简要回顾一下Transformer和Self-Attention的一般公式；然后提出用于三维点云处理的point transformer layer；最后，我们提出了用于3D场景理解的网络架构。

背景

作者说自注意力算子可分为两类：scalar attention和vector attention，前者就是最原始的《Attention is all you need》论文中的，而后者是作者自己的论文《Exploring self-attention for image recognition》里面的；本文使用的注意力计算方式是后者的vector attention方式。

先来看一下标准的标量点积自注意力：定义X={Xi}i是特征向量的集合，标量点积注意力层可以表示为：

其中yi是输出特征，φ，ψ和α是点对特征变换，例如可以是Linear层或者MLP层。

δ是一个位置编码函数，而ρ是一个归一化函数，本文使用的是saftmax归一化。

标量注意层计算经过了φ和ψ变换后的特征之间的标量积（即注意力的分数图），并将其作为对α变换后的特征的注意力权重。

而在矢量注意力（即本文所使用的注意力计算方式）中，算出来的注意力权重不

最低0.47元/天解锁文章