目录
作者提出,Transformer模型特别适合于点云处理,因为自注意力是Transformer的核心,本质上是一个集合算子:它对输入元素具有顺序不变性和数量不变性,因此,将自注意力机制用于点云是自然而然的,因为点云本质上是嵌入在3D空间的集合。
我们将这种直觉具体化,并开发了一个用于3D点云处理的自注意层。
该文章的主要贡献在于:
1.为点云处理设计了一个表达能力非常强的Point Transformer Layer。该层具有顺序不变性和数量不变性,因此天生适合点云处理。
2.在Point Transformer Layer的基础上,构建了高性能的Point Transformer networks,用于点云的分类和密集预测(dense prediction,为什么要预测密度呢?没懂)。这些网络可以作为3D场景理解的一般骨干。
3.我们在多个领域和数据集上进行了实验,并选出了模型设计中的一些最优实现,实验结果超过之前的工作。
作者说道:自注意力本质上是一个集合操作符:位置信息作为元素的属性提供,这些元素被作为集合处理。由于3D点云本质上是具有位置属性的点集,因此自注意机制似乎特别适合于这类数据。
另外,证明了位置编码在大尺度点云点云理解中的重要性。
首先,简要回顾一下Transformer和Self-Attention的一般公式;然后提出用于三维点云处理的point transformer layer;最后,我们提出了用于3D场景理解的网络架构。
背景
作者说自注意力算子可分为两类:scalar attention和vector attention,前者就是最原始的《Attention is all you need》论文中的,而后者是作者自己的论文《Exploring self-attention for image recognition》里面的;本文使用的注意力计算方式是后者的vector attention方式。
先来看一下标准的标量点积自注意力:定义X={Xi}i是特征向量的集合,标量点积注意力层可以表示为:
其中yi是输出特征,φ,ψ和α是点对特征变换,例如可以是Linear层或者MLP层。
δ是一个位置编码函数,而ρ是一个归一化函数,本文使用的是saftmax归一化。
标量注意层计算经过了φ和ψ变换后的特征之间的标量积(即注意力的分数图),并将其作为对α变换后的特征的注意力权重。
而在矢量注意力(即本文所使用的注意力计算方式)中,算出来的注意力权重不