https://blog.csdn.net/qq_43310834/article/details/113809360
https://bbs.cvmart.net/articles/4560/vote_count
https://zhuanlan.zhihu.com/p/337603099
摘要
自注意力网络彻底改变了自然语言处理,并且在图像分析任务(例如图像分类和目标检测)方面取得了令人瞩目的进步。受此启发,我们研究了自注意力网络在3D点云处理中的应用。我们为点云设计了自注意层,并使用它们构建用于语义场景分割、语义分割和分类等任务的自注意网络。我们的Point Transformer设计在多领域和多任务超越了之前的相关工作。例如,在具有挑战性的大规模语义场景分割的S3DIS数据集上,Point Transformer在 Area5上的 mIoU 达到70.4%,比最强模型高3.3个绝对百分点,并且首次超过70% mIoU 阈值。
主要贡献
本文提出适合点云处理的自注意力层,组成 Point Transformer 网络,更适合用于点云处理任务。
在多个基准数据集上超越之前的方法
方法概述
Point Transformer 层
对点云中每一个点
对应的特征xi
,计算其与近邻点特征集合 Xi 的向量自注意力特征yi
:
其中 φ、ψ、α、γ 均为 MLP;⊙为向量点乘;ẟ 为两个点相对位置 pi、pj 的编码( θ 同样也是一个 MLP ):
公式(3)同样可以表示为下图2:
Point Transformer 模块
下图4展示由 Point Transformer 层和线性投影以及下采样(farthest point sampl.)和上采样 (interpolation) 组成的三种不同的 Point Transformer 模块,分别对应特征尺度不变、向下过度(transition down)和向上过度 (transition up):
Point Transformer 网络
下图3显示 Point Transformer 语义分割网络(上半部分)和分类网络 (下半部分)的结构:
实验结果
下表1、2、3、4显示 Point Transformer 在S3DIS 、ShapeNetPart 语义分割数据集和 ModelNet40 点云分类数据集上均超越了使用 PointNet、图卷积网络、变形卷积等技术的 SOTA 方法:
下图5、6、7显示 Point Transformer 的预测样图: