论文阅读RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

由于依赖计算量极大的采样技术或计算繁重的预/后处理步骤,大多数现有方法只能在小规模点云上进行训练和操作,RandLA-Net提出了一种新的方法,使得能够在大规模点云上运行。
RandLA-Net的关键在于使用随机点采样,而不是更复杂的点选择方法。虽然随机抽样具有显著的计算和内存效率,但可能会偶然丢弃关键特征。为了克服这一问题,引入了局部特征聚合模块,以逐步增加每个三维点的感受野,从而有效地保留几何细节。

1. 文章做出的贡献

  • 比较了不同采样方法,最终采用随机采样作为RandLA-Net使用的的采样方法。
  • 提出局部特征聚合模块,逐步增加每个点的感受野,保留复杂的局部结构以此弥补随机采样损失的信息。
  • 大量对比实验

2. 随机采样方法的对比

由于计算力以及实时性要求的限制,在处理大规模点云数据时,不可避免的要进行下采样,与此同时要求不丢失有用特征信息。
在 RandLA-Net 的每一层中,大规模点云都被大幅降低采样率,但仍能保留准确分割所需的特征。在这里插入图片描述

2.1抽样方法分类

现有的点采样方法大致可分为启发式方法和基于学习的方法。然而,目前仍没有适合大规模点云的标准采样策略,因此对这两种做了对比:

  • 启发式采样:

    • a.最远点采样: 取出k个点,其中每个点距离剩余k-1个点的距离最远,但是计算量太大。O(N2)
    • b.逆密度重要性采样: 根据密度对n个点进行排序,取得前K个点作为采样点。相比于FPS要快,但是还不够快。O(N)
    • c.随机采样: 从原来的N个点中均匀选取K个点。O(1)
  • 启发式基于学习的采样:

    • a.基于生成器的采样: 通过学习生成一小部分点集,以近似表示原始的大点集。但是常常包括FPS,因此很慢。
    • b.基于连续松弛的采样
    • c.政策梯度采样

2.2采样方法对比

不同采样方法的时间和内存消耗。由于 GPU 内存有限,虚线表示估计值。
在这里插入图片描述

2.3选择随机采样

综合对比之下,随机抽样有以下两个优点:

  • 与输入点总数无关,因此计算效率极高
  • 不需要额外的计算内存

但是由于随机采样会造成有效特征点信息的丢失,因此接下来提提出了局部特征汇集模块,用以弥补这种损失。

3.局部特征汇集模块

局部特征聚合模块并行应用于每个三维点,它由三个神经单元组成:

  • 局部空间编码(LocSE)
  • 注意力汇集
  • 扩张残差块。

3.1 局部空间编码

给定点云 P 和每个点的特征(如原始 RGB 或中间学习特征),该局部空间编码单元会明确嵌入所有相邻点的 x-y-z 坐标,从而使相应的点特征始终知道它们的相对空间位置。
具体步骤如下:

  • 寻找邻近点:其邻近点首先通过简单的近邻算法(KNN)收集,以提高效率。

  • 相对点位置编码:
    r i k = M L P ( p i ⊕ p i k ⊕ ( p i − p i k ) ⊕ ∣ ∣ p i − p i k ∣ ∣ ) r_{i}^{k} = MLP(p_{i}⊕p_{i}^{k}⊕(p_{i}-p_{i}^{k})⊕||p_{i}-p_{i}^{k}||) rik=MLP(pipik(pipik)∣∣pipik∣∣)
    其中,pi是当前点,pik是邻居点;⊕是拼接操作;|| ||是计算欧氏距离

  • 点特征增强:对于每个相邻点 pik,编码后的相对点位置 rik 与其相应的点特征fik相连,得到一个增强特征向量 f ^ \hat{\text{f}} f^ik

局部空间编码模块结构如下图:
在这里插入图片描述

3.2注意力汇聚

该神经单元用于整合邻近点特征集 F ^ \hat{\text{F}} F^i。现有研究通常使用最大值/平均值汇集来硬性整合邻近特征,导致大部分信息丢失。因此RandLa-Net利用注意力机制来自动学习重要的局部特征。具体步骤如下:

  • 计算注意力分数: 设计一个共享函数 g,为每个特征学习唯一的注意力分数。基本上,函数 g由一个共享 MLP 和 softmax 组成。
    s i k = g ( f ^ i k , W ) s_{i}^{k} = g(\hat{\text{f}}_{i}^{k},W) sik=g(f^ik,W)其中,W是可学习的权重。
  • 加权求和: 学习到的注意力分数可被视为一种软掩码,能自动选择重要的特征。这些特征的加权总和如下:
    ( f ‾ i = ∑ k = 1 K ( f ^ i k ∗ s i k ) (\overline{\text{f}}_{i} = \sum_{k=1}^{K}(\hat{\text{f}}_{i}^{k}*s_{i}^{k}) (fi=k=1K(f^iksik)
    注意力汇聚模块结构如下图:
    在这里插入图片描述

3.3 扩张残差块

将多个局部空间编码单元和注意力汇聚单元与跳跃连接堆叠在一起作为扩张残差块。
扩张残差块的图示,它显着增加了每个点的感受野(虚线圆圈),彩色点代表聚合特征。 L:局部空间编码,A:注意力汇聚。在这里插入图片描述
红色 3D 点在第一次 LocSE/Attentive Pooling 操作后观察 K 个邻近点,然后能够从最多 K2 个邻近点(即第二个之后的两跳邻域)接收信息。
局部特征汇集模块总体结构:
在这里插入图片描述

4.网络结构

通过堆叠多个局部特征聚合模块和随机采样层来实现 RandLA-Net。详细架构如图:
在这里插入图片描述
(N,D)分别表示点数和特征维度。 FC:全连接层,LFA:局部特征聚合,RS:随机采样,MLP:共享多层感知器,US:上采样,DP:Dropout。
该网络遵循广泛使用的带有跳跃连接的编码器-解码器架构。输入点云首先被馈送到共享 MLP 层以提取每点特征。然后使用四个编码和解码层来学习每个点的特征。最后,使用三个全连接层和一个dropout层来预测每个点的语义标签。

  • 27
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值