「论文阅读」Point Transformer(ICCV_2021_paper_Zhao)

论文介绍了Point Transformer Layer,一种适用于3D点云处理的自注意力层,具有顺序和数量不变性。该层结合位置编码,构建了高性能的Point Transformer Networks,用于点云的分类和密集预测。实验表明,模型在多个数据集上的表现超越了现有工作,证实了Transformer在点云理解中的潜力。
摘要由CSDN通过智能技术生成

        

目录

背景

Point Transformer Layer

Position Encoding

Point Transformer Block

Network Architecture

Transition down

Transition up

Output head


作者提出,Transformer模型特别适合于点云处理,因为自注意力是Transformer的核心,本质上是一个集合算子:它对输入元素具有顺序不变性和数量不变性,因此,将自注意力机制用于点云是自然而然的,因为点云本质上是嵌入在3D空间的集合。

我们将这种直觉具体化,并开发了一个用于3D点云处理的自注意层。

该文章的主要贡献在于:

1.为点云处理设计了一个表达能力非常强的Point Transformer Layer。该层具有顺序不变性和数量不变性,因此天生适合点云处理。

2.在Point Transformer Layer的基础上,构建了高性能的Point Transformer networks,用于点云的分类和密集预测(dense prediction,为什么要预测密度呢?没懂)。这些网络可以作为3D场景理解的一般骨干。

3.我们在多个领域和数据集上进行了实验,并选出了模型设计中的一些最优实现,实验结果超过之前的工作。

作者说道:自注意力本质上是一个集合操作符:位置信息作为元素的属性提供,这些元素被作为集合处理。由于3D点云本质上是具有位置属性的点集,因此自注意机制似乎特别适合于这类数据。

另外,证明了位置编码在大尺度点云点云理解中的重要性。

首先,简要回顾一下Transformer和Self-Attention的一般公式;然后提出用于三维点云处理的point transformer layer;最后,我们提出了用于3D场景理解的网络架构。

背景

作者说自注意力算子可分为两类:scalar attention和vector attention,前者就是最原始的《Attention is all you need》论文中的,而后者是作者自己的论文《Exploring self-attention for image recognition》里面的;本文使用的注意力计算方式是后者的vector attention方式。

先来看一下标准的标量点积自注意力:定义X={Xi}i是特征向量的集合,标量点积注意力层可以表示为:

其中yi是输出特征,φ,ψ和α是点对特征变换,例如可以是Linear层或者MLP层。

δ是一个位置编码函数,而ρ是一个归一化函数,本文使用的是saftmax归一化。

标量注意层计算经过了φ和ψ变换后的特征之间的标量积(即注意力的分数图),并将其作为对α变换后的特征的注意力权重。

而在矢量注意力(即本文所使用的注意力计算方式)中,算出来的注意力权重不

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值