Fast Point Transformer阅读

由于全局自注意力的运算成本较高,因此在3D视觉任务中是不可行的。目前基于注意力的方法都是将大规模场景划分为小区域,然后将局部预测结果结合在一起,但这涉及额外的预处理和后处理阶段,且由于局部视角的预测,还会降低准确率。

Architecture

image.png
网络分为三个部分:
1.点云进行质心感知体素化
2.用局部自注意更新特征
3.体素块进行质心感知去体素化
pn:点坐标,in:原始特征
vi:体素坐标,fi:体素特征,ci:质心坐标
pn:点坐标,on:输出特征

Centroid-aware voxelization

image.png
体素化和去体素化都是用一个可学习的位置编码en实现
image.png

Centroid-aware devoxelization

image.png
体素化和去体素化都是用一个可学习的位置编码en实现
image.png
位置编码保存的就是点云在体素块中的相对位置,在去体素化时也要用到。

Lightweight Self-Attention

体素化可用hash快速查询相邻体素,复杂度O(N)
基于点云的方法用的KNN要O(N*logN)
image.png
普通自注意和减少空间复杂度的自注意对比
image.png
image.png

image.png

Experiments

image.png
image.png
image.png
image.png

Conclusion

在大规模3D数据集上,fast point transformer与闵可夫斯基有竞争力,并且fast point transformer的推理时间比point transformer快 129 倍。
在小尺寸体素下,fast point transformer还有改进的空间。未来将更新fast point transformer架构,不用最初为卷积层设计的U形架构。

  • 6
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值