此内容是论文总结,重点看思路!!
文章概述
本文提出了一种名为点注意力网络(Point Attention Network)的新的深度学习架构,用于3D点云的语义分割。点云是一种重要的3D数据表示形式,但由于其无序性和不规则性,对其进行语义分割一直是一个挑战。
主要贡献
-
局部注意力边缘卷积层(LAE-Conv):该层通过在中心点及其邻域构建的局部图上利用注意力机制,捕获准确且鲁棒的几何细节。它使用多方向搜索策略,确保邻域点来自不同方向,从而更全面地捕捉局部几何信息。
-
逐点空间注意力模块:该模块通过在点集内建立特征关联来捕获全局依赖关系,从而增强LAE-Conv层的输出局部特征。
-
U型网络的扩展:将LAE-Conv层和逐点空间注意力模块结合到一个U型网络中,实现了对局部几何特征和长程上下文信息的自适应集成。
使用的方法
多方向搜索方法
(a)多方向搜索示意图
-
球形空间:以中心点 pi 为球心,搜索半径 r 为半径构建一个球形空间。
-
均匀划分:将球形空间均匀划分为16个方向。每个方向对应一个锥形区域,其顶角为 θ(方位角)。
-
选择邻域点:在每个锥形区域内,选择 m 个距离中心点最近的点作为邻域点。图中以 m=1 为例,展示了一个方向上的邻域点 pj。
(b)邻域点投影
-
投影到平面:将中心点和所有邻域点投影到 xy 坐标平面。
-
八个方向:由于 m=1,共选择了16个邻域点,投影后在八个方向上各有2个点。
-
连线粗细:中心点与邻域点之间的连线粗细表示它们对中心点特征贡献的不同权重(注意力系数)。
逐点空间注意力模块
逐点空间注意力模块(point-wise spatial attention module),旨在捕获点云中长距离的上下文关联。该模块通过计算点与点之间的特征相似性,为每个点生成一个注意力图,从而让模型关注与其更相关的点。
模块输入
-
一组点云特征,表示为张量
D: N x F₂
,其中: -
N:点云中点的数量
-
F₂:每个点特征的维度
模块处理流程
1.特征变换:
将输入特征 D
分别通过两个共享的多层感知器(MLP,图中的绿色和黄色框),得到两个新的特征矩阵 A: N x F₁
和 B: N x F₁
。这里 F₁ 是变换后的特征维度。
2.计算相似性矩阵:
将 B
转置,然后与 A
进行矩阵乘法,得到一个 N x N
的相似性矩阵 S
。S
中的每个元素 Sij
表示点 i
和点 j
之间的特征相似度。
3.生成注意力图:
对 S
的每一行应用 softmax 函数,得到注意力图。注意力图中每一行的元素表示该点对其他所有点的注意力权重。
4.加权求和:
将注意力图与原始特征 D
进行矩阵乘法,然后对每一行进行逐元素求和(point-wise sum),得到最终的输出特征 P₀: N x F₂
。
模块输出
- 包含全局上下文信息的点云特征
P₀: N x F₂
。
关键点
-
共享 MLP:两个 MLP 共享参数,减少了模型的参数量。
-
softmax 函数:确保每个点的注意力权重和为 1。
-
逐元素求和:将注意力权重与特征加权求和,得到最终的输出特征。
点注意力网络架构
论文中提出的用于点云分割的点注意力网络(Point Attention Network)的整体架构。它通过编码器-解码器结构,结合 LAE-Conv 层提取局部几何特征和逐点空间注意力模块捕获全局上下文信息,实现了对点云的有效分割。跳跃连接的引入进一步提升了分割的精度,尤其是在物体边界等细节区域。
符号说明
-
B:批大小(Batch size)
-
Ni:第 i 层的点数
-
Ci:第 i 层的特征维度
编码器
-
结构:由多个 LAE-Conv 层和下采样层交替组成。
-
功能:逐步降低点云的空间分辨率,同时提取更高级的语义特征。
-
逐点空间注意力模块:在编码器的中间层插入了一个逐点空间注意力模块,用于捕获全局上下文信息。
解码器
-
结构:由多个 LAE-Conv 层和上采样层交替组成。
-
功能:逐步恢复点云的空间分辨率,同时结合编码器中的高级语义特征进行语义分割。
-
跳跃连接:通过跳跃连接(skip concatenation)将编码器中的低级特征与解码器中的高级特征融合,有助于恢复点云的细节信息。
输出
- 全连接层(FC layer):将解码器最后一层的特征映射到每个点的语义类别概率。
关键点
-
LAE-Conv 层:有效提取局部几何特征,提高模型对点云局部结构的理解能力。
-
逐点空间注意力模块:捕获全局上下文信息,增强模型对点云整体语义的理解。
-
编码器-解码器结构:逐步提取和融合多层次特征,实现对点云的语义分割。
-
跳跃连接:融合低级和高级特征,提高分割精度,尤其是在细节区域。