论文笔记：EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

最新推荐文章于 2025-02-16 14:14:38 发布

bryant forever

最新推荐文章于 2025-02-16 14:14:38 发布

阅读量4.7k

点赞数

分类专栏：自动驾驶 3D目标检测文章标签：计算机视觉自动驾驶

本文链接：https://blog.csdn.net/bryantforever/article/details/113195469

版权

自动驾驶同时被 2 个专栏收录

6 篇文章

订阅专栏

3D目标检测

4 篇文章

订阅专栏

EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection

1.摘要

这篇文章主要解决3D目标检测中的两个重要问题，包括多传感器融合的使用和定位和分类的置信度的不一致问题。所以我们提出了一个新的融合单元，用逐点的方式使用语义图像特征来提高点的特征，并且不需要任何图像标注（也就是2D检测框）。另外，一个一致性强制损失被用来更好的促进定位和分类置信度的一致性。另外本文代码也已经开源。

2.介绍

图像信息经常包含大量的语义信息（颜色，纹理），但缺失深度信息。

激光雷达的点云可以提供深度和几何信息，但是激光雷达的点云经常比较稀疏，无序，分布不均匀。

下图展示了图像的语义信息的重要性，图中的白色和黄色椅子因为几何信息很像，所以光通过lidar很难辨别，表现出来就是检测框的检测结果不准确。在这种情况下，使用颜色信息去定位就很关键，所以需要高效的融合单元。
在这里插入图片描述

但是融合并不是一个简单的问题，作者给出以下两点原因：

1.他们拥有很不同的数据特征。

2.相机照片对光照和遮挡很敏感，从而可能引入对3D对象检测任务有害的干扰信息。

之前的工作在融合时需要图像标注（也就是2D检测框）的帮助。

之前的融合的工作大致可以分为两类：

1.级联的方法，在不同的步中使用不同的传感器。

2.对多传感器输入进行联合推理的融合方法。

这些方法虽然高效，但都有所限制，级联的方法不能利用不同传感器之间的互补性，他们的表现在每一步中仍被限制。第二种方法需要视角投影去产生BEV数据，或者需要体素化，这些都导致信息的损失。此外，它们只能近似地在体素特征和语义图像特征之间建立相对粗略的对应关系。我们提出了LiDAR-guided Im- age Fusion (LI-Fusion) module去解决上面两个问题，这个单元用逐点的方式建立了点云原始图像和相机照片之间的联系，并且自适应地估计图像语义特征的重要性。这样做，可以使得有用的图像特征被用来增强点的特征，同时抑制干扰图像的特征，我们的解决方案有四个主要优点：

1.通过更简单的网络实现激光雷达和相机图像数据之间的细粒度的逐点对应，而无需复杂的BEV数据生成的过程。

2.可以保持原始的几何信息而不需要信息损失。

3.解决摄像机图像可能带来的干扰信息的问题。

4.不再需要图像标注，即2D检测框。

除此之外要解决的是定位和分类的置信度的不一致问题，也就是一个物体是否存在于检测框中，以及它与真实框有多少重叠。下图中，有很高分类置信度的检测框，其定位置信度很低。

在这里插入图片描述

这种不一致性将导致检测性能下降，因为非最大抑制(NMS)过程会自动过滤掉具有较大重叠但分类置信度较低的检测框。但是，这个问题之前就有人讨论过，Jiang等人通过改进NMS来解决这个问题。他们引入了一个新的分支来预测定位置信度，并将NMS过程的阈值替换为分类和定位置信度的乘积。虽然在某种程度上是有效的，但是没有明确的约束来强制这两个置信度的一致性。与其不同，我们突出了一种一致性强制损失(CE loss)来明确地保证这两种置信度的一致性。在它的帮助下，有高分类置信度的检测框被激励去拥有与真实框更高的重合度，反之亦然。这个方法有两个优点，第一，我们的解决方案易于实施，且无需对检测网络的结构进行任何修改。第二，其次，我们的方法完全没有可学习的参数和额外的推理时间开销。

3.方法

EPNet由一个用来产生建议双流RPN（two- stream RPN）和一个用来细化检测框的细化网络（refinement network）组成，并且可以端到端训练。

3.1 Two-stream RPN

在这里插入图片描述

双流RPN由几何流和图像流组成，它们分别产生点特征和语义图像特征。我们使用了多个LI-Fusion模块，在不同的比例上用语义图像特征来提高对应的点特征，从而得到了更多的可辩别特征的表示。

Image Stream

用相机图像作为输入，用了一系列卷积操作提取语义图像信息。采用了简单的网络结构，由四个轻量级的

卷积快组成，每个卷积块由：两个3×3卷积层+一个批量标准化层+ReLU激活函数。其中的第二个卷积层

使用步幅为2来扩大感受野并节约GPU内存。用Fi (i=1,2,3,4)表示每个卷积块的输出，如图中所示，Fi在不同的比例上提供了充足的图像语义信息来丰富激光雷达的点的信息。之后又采用了四个不同步长的平行的反卷积层来恢复图像的分辨率，从而得到与原始图像一样大的特征图。之后将这四张拼接起来得到FU，

之后也要用FU提高激光雷达点的特征。

Geometric Stream

用激光雷达点云作为输入，产生3D建议。

包含了4个成对的Set Abstraction (SA) （来自 Pointnet++）和Feature Propogation (FP)（来自 Pointnet++）层来提取特征。将它们分别表示为Si 和 Pi (i=1,2,3,4)。如图中所示，我们使用LI-Fusion模块来结合点的特征Si和语义图像特征Fi。除此之外，FU也加到P4上，之后用其做前景点的分割和3D建议的产生。

LI-Fusion Module

在这里插入图片描述

包括一个网格生成器（grid generator），一个图像采样器（image sampler），一个LI-Fusion layer层。如图中所示，LI-Fusion module可以分为两个部分，逐点对应生成器和激光雷达引导的融合。具体地说，我们把激光雷达的点投影到相机图片上，将映射矩阵表示为M。网格生成器将激光雷达点云和映射矩阵M作为输入，输出在不同分辨率下激光雷达点和相机图片的对应关系。更具体地说，对于点云中的某一个点p(x, y, z) ，我们可以得到它在相机图片中对应的位置p‘(x’, y‘) ，公式可以写成

在这里插入图片描述

在建立了对应关系以后，我们使用图像采样器得到每个点对应的语义特征表示。具体地讲，我们的图像采样器使用取样位置p’和图像特征图F作为输入，对每一个采样位置产生一个逐点的图像特征表示V。考虑到采样位置可能落在相邻像素之间，我们使用双线性插值来获得连续坐标下的图像特征，其公式如下

在这里插入图片描述

融合激光雷达特征和逐点图像特征并不容易，因为相机图像回受到很多因素的挑战，包括光照等影响。在这些情况下，逐点图像特征将引入干涉信息。为了解决这个问题，我们引入了LiDAR-guided fusion层，它使用逐点的方式去使用激光雷达特征去自适应地评估图像特征的重要性。如图中所示，FP和FI先经过全连接层并且映射它们到相同的通道。然后将它们相加来形成一个更紧密的特征表示，然后将他们以一个通道通过另一个全连接层从而被压缩成一个权重图w。我们又使用了sigmoid激活函数将权重图w正则化到【0，1】之间。公式如下

在这里插入图片描述

在得到权重图w后，我们将激光雷达特征FP与语义图像特征FI拼接在一起，可表示为

在这里插入图片描述

3.2 Refinement Network

我们使用NMS来保留高质量的建议框，并将它们送入细化网络。
对于每个输入建议，我们通过在我们的双流RPN的最后一个SA层顶部的检测框中随机选择512个点来生成其特征描述符。对于小于512点的建议框，我们只需用0填充描述符。
细化网络由三个SA层组成，用来提取紧凑的全局描述，两个级联的子网络1×1卷积层分别进行分类和回归。