由于全局自注意力的运算成本较高,因此在3D视觉任务中是不可行的。目前基于注意力的方法都是将大规模场景划分为小区域,然后将局部预测结果结合在一起,但这涉及额外的预处理和后处理阶段,且由于局部视角的预测,还会降低准确率。
Architecture
网络分为三个部分:
1.点云进行质心感知体素化
2.用局部自注意更新特征
3.体素块进行质心感知去体素化
pn:点坐标,in:原始特征
vi:体素坐标,fi:体素特征,ci:质心坐标
pn:点坐标,on:输出特征
Centroid-aware voxelization
体素化和去体素化都是用一个可学习的位置编码en实现
Centroid-aware devoxelization
体素化和去体素化都是用一个可学习的位置编码en实现
位置编码保存的就是点云在体素块中的相对位置,在去体素化时也要用到。
Lightweight Self-Attention
体素化可用hash快速查询相邻体素,复杂度O(N)
基于点云的方法用的KNN要O(N*logN)
Experiments
Conclusion
在大规模3D数据集上,fast point transformer与闵可夫斯基有竞争力,并且fast point transformer的推理时间比point transformer快 129 倍。
在小尺寸体素下,fast point transformer还有改进的空间。未来将更新fast point transformer架构,不用最初为卷积层设计的U形架构。