3D-CVF论文解读

sky1_23

已于 2022-11-28 09:51:00 修改

阅读量1k

点赞数 1

分类专栏：多模态3D目标检测文章标签：计算机视觉人工智能深度学习目标检测自动驾驶

于 2022-11-27 20:11:08 首次发布

本文链接：https://blog.csdn.net/sky_1305995351/article/details/128068827

版权

多模态3D目标检测专栏收录该内容

5 篇文章 0 订阅

订阅专栏

3D-CVF论文解读

论文链接：[2004.12636] 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection (arxiv.org)

1.背景

采用单一模态的数据进行目标检测性能有限，因此多模态感知融合技术开始出现。例如使用相机与激光雷达进行3D物体检测，由于这两种传感器具有不同的特征和分布，融合这两种模态的信息有望提高3D物体检测的准确性和鲁棒性。

由于相机与激光雷达获得的空间特征图存在视角差异，因此对这两种异构数据进行融合存在丢失信息的问题，为了解决这个问题，该论文提出了3D-CVF。

2.网络架构

在这里插入图片描述

首先，该方法采用自动校准投影，将2D相机特征转换为与鸟瞰图(BEV)中的LiDAR特征具有最高对应关系的平滑空间特征图。然后应用门控特征融合网络以使用空间注意力图根据区域适当地混合相机和LiDAR特征。接下来，相机-LiDAR特征融合也在随后的提议细化阶段实现。低级 LiDAR 特征和相机特征使用基于感兴趣区域 (RoI) 的特征池分别池化，并与联合相机LiDAR特征融合以增强提议细化。

其实就是分别对相机数据与激光雷达数据进行特征提取以及融合相机特征与激光雷达特征，然后将相机的特征以及激光雷达的特征进行编码，对融合特征进行池化，接着将三种处理过的数据送入3D ROI Fusion-based Refinement，最后进行3D物体检测。

该网络的总体架构由五个模块组成，包括 1) LiDAR pipeline，2) camera pipeline，3) cross-view spatial feature mapping，4) gated camera-LiDAR feature fusion network， 5）proposal generation and refinement network。

2.1 LiDAR pipeline

对激光雷达点进行体素化，每个体素内最多保留max个点，少的点由零补，多的点去掉，生成固定长度的向量，然后送入六个步幅为2的3D稀疏卷积层处理，生成 BEV 域中128个通道的 LiDAR 特征图，生成的 LiDAR 特征图的特征图减少了八分之一，这一部分结构应该取自SECOND中的类似，相比于进行3D卷积，3D稀疏卷积减少了内存消耗。

在这里插入图片描述

2.2 RGB Pipeline

相机RGB图像由CNN主干网络处理，使用预训练的ResNet18和特征金字塔网络 (FPN)来生成相机视图中表示的256个通道的相机特征图，相机特征图的宽度和高度减少了八分之一。

在这里插入图片描述

在这里插入图片描述
ResNet18网络结构

在这里插入图片描述

2.3 Cross-View Feature Mapping

交叉视图特征(CVF)映射生成投影在BEV中的相机特征图。自动校准投影将相机视图中的相机特征图转换为BEV中的特征图。然后，投影的特征图通过额外的卷积层得到增强，并传送到门控相机-LiDAR特征融合块。

在这里插入图片描述

(1) 密集像素结构：构建相机体素结构以生成空间密集特征，在x和y轴上是LiDAR体素结构的两倍，总体素量是LiDAR的4倍。

(2) 自动校准投影方法：将相机视图特征转换为BEV特征，找到它们之间的最佳对应关系以最大化信息融合的效果。具体方法为，首先使用world-to-camera-view投影矩阵将每个体素的中心投影到相机视图平面中，其中voxel的投影点为

在这里插入图片描述

每个投影点

在这里插入图片描述

通过偏移量(Δx，Δy)调整，得到camera-view中的投影位置

在这里插入图片描述

，其相邻的四个像素通过线性插值方法得到各自权重，然后分配给各自的区域。

在这里插入图片描述

组合像素

在这里插入图片描述

集合{f_m,n}表示相邻像素，w_m,n表示权重，一般的插值方法由双线性插值，使用的是欧氏距离，

在这里插入图片描述

上图就是双线性插值的图例，x方向单线性插值
$f({R_1})=\frac{{x_2}-x}{{x_2}-{x_1}}f(Q_{11})+\frac{x-{x_1}}{{x_2}-{x_1}}f(Q_{21})$

$f({R_2})=\frac{{x_2}-x}{{x_2}-{x_1}}f(Q_{12})+\frac{x-{x_1}}{{x_2}-{x_1}}f(Q_{22})$

y方向单线性插值
$f({P})=\frac{{y_2}-y}{{y_2}-{y_1}}f(R_{1})+\frac{y-{y_1}}{{y_2}-{y_1}}f(R_{2})$
自动校准投影的效果对比

在这里插入图片描述

（a）和（b）表示自动校准投影前后的效果，如果没有自动校准投影，则无法得到密集且平滑的变换特征图，但是还需要通过自适应门控融合网络才能定位物体的位置，得到（c）中的效果。

对于自动校准投影中的偏移量(Δx，Δy)的介绍没有详细说明。

2.4 Gated Camera-LiDAR Feature Fusion

自适应门控融合网络用于组合相机特征图和激光雷达特征图。空间注意力图被应用于两个特征图，以根据它们的重要性调整每个模态的贡献。自适应门控融合网络生成联合相机-LiDAR特征图，传递给3D ROI Fusion-based Refinement。

在这里插入图片描述

2.5 3D ROI Fusion-based Refinement

在基于joint camera-LiDAR feature map生成区域建议后，应用RoI pooling进行建议细化。由于joint camera-LiDAR feature map不包含足够的空间信息，因此使用3D ROI-based pooling提取多尺度LiDAR特征和相机特征。这些特征由PointNet编码器单独编码，并通过3D ROI-based fusion network与joint camera-LiDAR feature map融合。融合后的特征用于产生最终的检测结果。

在这里插入图片描述

Region Proposal Generation

将joint camera-LiDAR feature通过RPN得到初步的检测结果：候选区域。

3D ROI-based Feature Fusion

joint camera-LiDAR feature的经过RPN后得到的预测框使用旋转的3D ROI转为全局坐标，同时将经过池化与编码的low-level LIDAR和camera feature与joint camera-LiDAR feature进行结合，得到更加详细的信息。

在这里插入图片描述

多视角相机特征被转换为1*1的特征向量。
在这里插入图片描述
由于camera-view的特征与proposals的3D boxes位于不同的视角，因此设计了ROI grid-based pooling，首先对每个候选的3D box的每条边等距取点，得到r * r * r个点，然后将这些点投影到camera-view下，获取对应的图像像素特征，然后由PointNet编码器编码。这些编码的多视图相机特征的串联形成一个1×1特征向量。