Point Transformer 学习笔记

最新推荐文章于 2025-04-29 14:02:33 发布

THE@JOKER

最新推荐文章于 2025-04-29 14:02:33 发布

阅读量1.1k

点赞数

分类专栏： 3D点云

原文链接：https://bbs.cvmart.net/articles/4560/vote_count

版权

3D点云专栏收录该内容

11 篇文章

订阅专栏

本文介绍了一种创新的PointTransformer网络，专为3D点云设计的自注意力层，显著提升语义场景分割和分类任务的表现。在S3DIS数据集上，PointTransformer首次超过70% mIoU，超越现有方法。主要贡献在于提出适用于点云的注意力机制和网络结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

https://blog.csdn.net/qq_43310834/article/details/113809360
https://bbs.cvmart.net/articles/4560/vote_count
https://zhuanlan.zhihu.com/p/337603099

摘要

自注意力网络彻底改变了自然语言处理，并且在图像分析任务（例如图像分类和目标检测）方面取得了令人瞩目的进步。受此启发，我们研究了自注意力网络在3D点云处理中的应用。我们为点云设计了自注意层，并使用它们构建用于语义场景分割、语义分割和分类等任务的自注意网络。我们的Point Transformer设计在多领域和多任务超越了之前的相关工作。例如，在具有挑战性的大规模语义场景分割的S3DIS数据集上，Point Transformer在 Area5上的 mIoU 达到70.4％，比最强模型高3.3个绝对百分点，并且首次超过70％ mIoU 阈值。

主要贡献

本文提出适合点云处理的自注意力层，组成 Point Transformer 网络，更适合用于点云处理任务。
在多个基准数据集上超越之前的方法

方法概述

Point Transformer 层

对点云中每一个点对应的特征xi，计算其与近邻点特征集合 Xi 的向量自注意力特征yi:
在这里插入图片描述

其中 φ、ψ、α、γ 均为 MLP；⊙为向量点乘；ẟ 为两个点相对位置 pi、pj 的编码（ θ 同样也是一个 MLP ）：
在这里插入图片描述

公式（3）同样可以表示为下图2：在这里插入图片描述

Point Transformer 模块

下图4展示由 Point Transformer 层和线性投影以及下采样（farthest point sampl.）和上采样（interpolation) 组成的三种不同的 Point Transformer 模块，分别对应特征尺度不变、向下过度（transition down）和向上过度（transition up)：
在这里插入图片描述

Point Transformer 网络

下图3显示 Point Transformer 语义分割网络（上半部分）和分类网络（下半部分）的结构：

file

实验结果

下表1、2、3、4显示 Point Transformer 在S3DIS 、ShapeNetPart 语义分割数据集和 ModelNet40 点云分类数据集上均超越了使用 PointNet、图卷积网络、变形卷积等技术的 SOTA 方法：
在这里插入图片描述
下图5、6、7显示 Point Transformer 的预测样图：
file