论文笔记:EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

1.摘要

这篇文章主要解决3D目标检测中的两个重要问题,包括多传感器融合的使用和定位和分类的置信度的不一致问题。所以我们提出了一个新的融合单元,用逐点的方式使用语义图像特征来提高点的特征,并且不需要任何图像标注(也就是2D检测框)。另外,一个一致性强制损失被用来更好的促进定位和分类置信度的一致性。另外本文代码也已经开源。

2.介绍

图像信息经常包含大量的语义信息(颜色,纹理),但缺失深度信息。

激光雷达的点云可以提供深度和几何信息,但是激光雷达的点云经常比较稀疏,无序,分布不均匀。

下图展示了图像的语义信息的重要性,图中的白色和黄色椅子因为几何信息很像,所以光通过lidar很难辨别,表现出来就是检测框的检测结果不准确。在这种情况下,使用颜色信息去定位就很关键,所以需要高效的融合单元。
在这里插入图片描述

但是融合并不是一个简单的问题,作者给出以下两点原因:

1.他们拥有很不同的数据特征。

2.相机照片对光照和遮挡很敏感,从而可能引入对3D对象检测任务有害的干扰信息。

之前的工作在融合时需要图像标注(也就是2D检测框)的帮助。

之前的融合的工作大致可以分为两类:

1.级联的方法,在不同的步中使用不同的传感器。

2.对多传感器输入进行联合推理的融合方法。

这些方法虽然高效,但都有所限制,级联的方法不能利用不同传感器之间的互补性,他们的表现在每一步中仍被限制。第二种方法需要视角投影去产生BEV数据,或者需要体素化,这些都导致信息的损失。此外,它们只能近似地在体素特征和语义图像特征之间建立相对粗略的对应关系。我们提出了LiDAR-guided Im- age Fusion (LI-Fusion) module去解决上面两个问题,这个单元用逐点的方式建立了点云原始图像和相机照片之间的联系,并且自适应地估计图像语义特征的重要性。这样做,可以使得有用的图像特征被用来增强点的特征,同时抑制干扰图像的特征,我们的解决方案有四个主要优点:

1.通过更简单的网络实现激光雷达和相机图像数据之间的细粒度的逐点对应,而无需复杂的BEV数据生成的过程。

2.可以保持原始的几何信息而不需要信息损失。

3.解决摄像机图像可能带来的干扰信息的问题。

4.不再需要图像标注,即2D检测框。

除此之外要解决的是定位和分类的置信度的不一致问题,也就是一个物体是否存在于检测框中,以及它与真实框有多少重叠。下图中,有很高分类置信度的检测框,其定位置信度很低。

在这里插入图片描述

这种不一致性将导致检测性能下降,因为非最大抑制(NMS)过程会自动过滤掉具有较大重叠但分类置信度较低的检测框。但是,这个问题之前就有人讨论过,Jiang等人通过改进NMS来解决这个问题。他们引入了一个新的分支来预测定位置信度,并将NMS过程的阈值替换为分类和定位置信度的乘积。虽然在某种程度上是有效的,但是没有明确的约束来强制这两个置信度的一致性。与其不同,我们突出了一种一致性强制损失(CE loss)来明确地保证这两种置信度的一致性。在它的帮助下,有高分类置信度的检测框被激励去拥有与真实框更高的重合度,反之亦然。这个方法有两个优点,第一,我们的解决方案易于实施,且无需对检测网络的结构进行任何修改。第二,其次,我们的方法完全没有可学习的参数和额外的推理时间开销。

3.方法

EPNet由一个用来产生建议双流RPN(two- stream RPN)和一个用来细化检测框的细化网络(refinement network)组成,并且可以端到端训练。

3.1 Two-stream RPN

在这里插入图片描述

双流RPN由几何流和图像流组成,它们分别产生点特征和语义图像特征。我们使用了多个LI-Fusion模块,在不同的比例上用语义图像特征来提高对应的点特征,从而得到了更多的可辩别特征的表示。

Image Stream

用相机图像作为输入,用了一系列卷积操作提取语义图像信息。采用了简单的网络结构,由四个轻量级的

卷积快组成,每个卷积块由:两个3×3卷积层+一个批量标准化层+ReLU激活函数。其中的第二个卷积层

使用步幅为2来扩大感受野并节约GPU内存。用Fi (i=1,2,3,4)表示每个卷积块的输出,如图中所示,Fi在不同的比例上提供了充足的图像语义信息来丰富激光雷达的点的信息。之后又采用了四个不同步长的平行的反卷积层来恢复图像的分辨率,从而得到与原始图像一样大的特征图。之后将这四张拼接起来得到FU,

之后也要用FU提高激光雷达点的特征。

Geometric Stream

用激光雷达点云作为输入,产生3D建议。

包含了4个成对的Set Abstraction (SA) (来自 Pointnet++)和Feature Propogation (FP)(来自 Pointnet++)层来提取特征。将它们分别表示为Si 和 Pi (i=1,2,3,4)。如图中所示,我们使用LI-Fusion模块来结合点的特征Si和语义图像特征Fi。除此之外,FU也加到P4上,之后用其做前景点的分割和3D建议的产生。

LI-Fusion Module

在这里插入图片描述

包括一个网格生成器(grid generator),一个图像采样器(image sampler),一个LI-Fusion layer层。如图中所示,LI-Fusion module可以分为两个部分,逐点对应生成器和激光雷达引导的融合。具体地说,我们把激光雷达的点投影到相机图片上,将映射矩阵表示为M。网格生成器将激光雷达点云和映射矩阵M作为输入,输出在不同分辨率下激光雷达点和相机图片的对应关系。更具体地说,对于点云中的某一个点p(x, y, z) ,我们可以得到它在相机图片中对应的位置p‘(x’, y‘) ,公式可以写成

在这里插入图片描述

在建立了对应关系以后,我们使用图像采样器得到每个点对应的语义特征表示。具体地讲,我们的图像采样器使用取样位置p’和图像特征图F作为输入,对每一个采样位置产生一个逐点的图像特征表示V。考虑到采样位置可能落在相邻像素之间,我们使用双线性插值来获得连续坐标下的图像特征,其公式如下

在这里插入图片描述

融合激光雷达特征和逐点图像特征并不容易,因为相机图像回受到很多因素的挑战,包括光照等影响。在这些情况下,逐点图像特征将引入干涉信息。为了解决这个问题,我们引入了LiDAR-guided fusion层,它使用逐点的方式去使用激光雷达特征去自适应地评估图像特征的重要性。如图中所示,FP和FI先经过全连接层并且映射它们到相同的通道。然后将它们相加来形成一个更紧密的特征表示,然后将他们以一个通道通过另一个全连接层从而被压缩成一个权重图w。我们又使用了sigmoid激活函数将权重图w正则化到【0,1】之间。公式如下

在这里插入图片描述

在得到权重图w后,我们将激光雷达特征FP与语义图像特征FI拼接在一起,可表示为

在这里插入图片描述

3.2 Refinement Network

我们使用NMS来保留高质量的建议框,并将它们送入细化网络。
对于每个输入建议,我们通过在我们的双流RPN的最后一个SA层顶部的检测框中随机选择512个点来生成其特征描述符。对于小于512点的建议框,我们只需用0填充描述符。
细化网络由三个SA层组成,用来提取紧凑的全局描述,两个级联的子网络1×1卷积层分别进行分类和回归。

3.3 一致性强制损失函数(Consistency Enforcing Loss)

普通的3D物体检测器通常会产生比场景中真实物体数量更多的包围框。如何选择高质量的边界框是一个很大的挑战。NMS试图根据分类置信度过滤不满足的边界框。在这种情况下,假设分类置信度可以作为边界和地面真理之间的真实借据的代理,即定位置信度。然而,分类置信度和定位置信度往往不一致,导致性能欠佳。

这促使我们引入一致性强制损失来确保定位和分类置信度之间的一致性,使高定位置信度的方框具有高分类置信度,反之亦然。一致性强制损失可以写成:

]

因此,这个损失函数使得重叠较大的检测框将具有较高的分类可能性,并保留在NMS过程中。

3.4 总损失函数

在这里插入图片描述

总损失函数由双流RPN网络的损失函数(L rpn)和精细网络的损失函数(L rcnn)组成,这两个损失函数,每个都包含分类损失,回归损失,和CE损失。

4.消融实验

在这里插入图片描述 5.KITTI(自动驾驶数据集)和SUN-RGBD(室内3D目标检测数据集)数据集上的检测结果

在这里插入图片描述

  • 0
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值