「论文阅读」PCT:Point Cloud Transformer

目录

PCT的点云处理

编码器(Encoder):

物体分类

语义分割

法线估计

Naive PCT

SPCT

全PCT


受Transformer在视觉和nlp任务方面的成功启发,我们基于传统Transformer的原理,提出了一个用于点云学习的新框架PCT。PCT的核心思想是利用Transformer固有的顺序不变性,避免了点云数据顺序的定义,并通过注意机制进行特征学习。

该文章提出的PCT可以处理的任务有物体分类、语义分割和法线估计。

针对点云处理任务,PCT做出的主要调整如下:

基于点坐标的位置嵌入模块:

Transformer在处理自然语言的时候给每个单词嵌入了在句子中的位置信息,然而点云是无序的,因此在pct中将原始的transformer中的位置编码的嵌入改成了一个基于坐标的输入嵌入模块中,他可以输出可区分的特征,因为点云中每个点都是独一无二的。

优化的偏移Attention模块:

工作原理是用自注意模块输入与注意特征之间的偏移量代替注意特征。这有两个好处:

1:点云刚性变换后,绝对位置坐标不同,而相对位置坐标不变

2:(没看懂)(偏移注意本身具有的置换不变性?)

邻居嵌入模块:

在自然语言处理中每个词都蕴含词本身的信息,而在点云中,每个点单独拎出来是没有任何意义的,除非能考虑到这个点周围的邻居。因此使用邻接嵌入策略来改进点嵌入。它还通过考虑包含语义信息的局部点组之间的注意而不是单个点之间的注意来辅助注意模块。

通过上述调整,PCT变得更适合于点云特征学习,并在形状分类、部件分割和常规估计任务上取得了最先进的性能。

PCT的点云处理

PCT的总体架构。编码器(Encoder)主要由输入嵌入模块和四个堆叠的注意力模块组成。解码器(Decoder)主要包含多个线性层。每个模块上面的数字表示其输出通道。MA-Pool即最大池化和平均池化的组合。LBR是Linear,BatchNorm and ReLU layers的组合。LBRD是LBR再加一个Dropout。

编码器(Encoder)

  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值