[论文阅读]PCT: Point cloud transformer

Guo, M.-H., Cai, J.-X., Liu, Z.-N., Mu, T.-J., Martin, R. R., & Hu, S.-M. (2021). PCT: Point cloud transformer. Computational Visual Media, 7(2), 187–199. https://doi.org/10.1007/s41095-021-0229-5

PCT:点云transformer

摘要
这篇论文介绍了一种名为“点云Transformer”(Point Cloud Transformer,PCT)的新型框架,用于点云学习。由于点云的不规则域和缺乏顺序,设计用于点云处理的深度神经网络具有挑战性。PCT基于变压器(Transformer)构建,该架构在自然语言处理中取得了巨大成功,并在图像处理中展现了巨大潜力。由于其固有的排列不变性,适用于处理点序列,使其非常适用于点云学习。为了更好地捕捉点云中的局部上下文,该方法采用了最远点采样最近邻搜索的方法来增强输入嵌入。广泛的实验证明,PCT在形状分类、部分分割、语义分割和法线估计等任务上取得了业界领先的性能。

在这里插入图片描述
图1:PCT生成的注意力图和部分分割。前三列:不同查询点的逐点注意力图(由指示),黄色到蓝色表示逐渐增加的注意力权重。最后一列:部分分割结果。

在这里插入图片描述
图2:PCT架构。编码器主要包括一个输入嵌入模块和四个堆叠的注意力模块。解码器主要包括多个线性层。每个模块上方的数字表示其输出通道数。MA-Pool将最大池化和平均池化连接在一起。LBR组合了线性、批归一化和ReLU层。LBRD表示LBR后跟一个Dropout层。

在这里插入图片描述
图3:Offset-Attention的架构。张量上方的数字是维度N和特征通道数D/Da,开关显示了Self-Attention或Offset-Attention的替代方案:虚线表示Self-Attention分支。

在这里插入图片描述
图4:左侧:邻居嵌入架构。中间:SG模块,其中Nin是输入点数,din是输入通道数,k是邻居数,Nout是输出采样点数,dout是输出通道数。右上方:采样示例(彩色球代表采样点)。右下方:带有k-NN邻居的分组示例。LBR上方的数字:输出通道数。SG上方的数字:采样点数及其输出通道数。

在这里插入图片描述

图5:PointNet、NPCT、SPCT、PCT和真实值(GT)的分割结果。

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值