Semantic segmentation for real point cloud scenes via bilateral augmentation and adaptive fusion

[CVPR2021] Semantic segmentation for real point cloud scenes via bilateral augmentation and adaptive fusion

abstract

  1. 任务:大规模场景下的语义分割
  2. 创新点1:为降低临近点的模糊性,文章采用一个双边结构充分的利用几何和语义特征以增强局部上下问信息。
  3. 创新点2:文章综合的解释量在多分辨率特征下点的清晰性,采用自适应融合模块对特征映射图进行点级表示。

introdcution

  • 与2D图片不同,三维点云是离散的、不规则的、无序的、不均匀分布在3D空间中。

  • 基于数据驱动的卷积神经网络方法可分为三种:基于映射的、基于离散化的、以及基于点的。基于映射的放在是将3D点云投影成2D多视角图片,然后再用FCN(全卷积神经网络进行处理)。基于离散化的方法则是将点云离散化成体素网格或者lattices,最后再将语义分割结果重新插值回原始点云。前面提到的基于映射和基于离散化的方法有一些共性的问题:
    (1)为了对点云进行预测,需要花费时间进行预处理或者后处理。
    (2)生成的中间表示(多视角图片、体素网格、lattices)可能会损失部分环境的上下问信息。

  • 基于上述提到的问题,文章才立足在基于点的神经网络上。然而对与基于点的神经网路仍然存在这下述问题:
    (1)临近点的模糊性:现在的方法大多是利用它预先定义好的特征进行表示的。因此就不可避免的存在重合和离群点,特别是对于在不同类别的边界中的点。为了减轻这一影响,文章尝试利用一个密集区域去增增强局部上下文。引入一个鲁棒的聚集处理操作去细化增强的局部上下文信息以及提取有用的领域信息为了更好的点特征表达。
    (2)冗余的特征:大量的工作都是多次连接相似的特征来增强模型的感知能力,但是事实上,这样的处理,对于处理大规模场景的点云来说,会造成冗余以及提升模型的复杂度。为了避免这一问题,文章提出将输入信息分为几何信息和语义信息,然后通过一个双边结构去完全地利用他们。
    (3)不足地全局表达:一般的语义分割框架采用编码解码(Encoder-Decoder)结构学习采样后的数据。因为对原始数据的全局感知可能在采样过程中可能被损害,所以采用编码解码结构得到的输出特征映射对于语义分割分析来书是不足的。因此文章提出自适应地融合多分辨率地特征以获得综合的表示。

methodology

在这里插入图片描述
整体网络框架的主要包括特征提取层、双边上下文模块、以及自适应融合模块。首先采用特征提取层提取初始的语义信息F。然后双边上下文模块增强局部语义。一般来说双边上下文模块由一系列的小块(block)构成, 并需要几何信息和语义信息作为双边输入信息输入。最后自适应融合模块子使用的融合所有双边上下文模块的输出。最后再用全连接层预测语义结果。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值