恶劣天气条件下目标检测的最优传感器数据融合架构

最新推荐文章于 2024-05-25 01:53:24 发布

3D感知巨头

最新推荐文章于 2024-05-25 01:53:24 发布

阅读量1.5k

点赞数

分类专栏：目标检测文章标签：计算机视觉神经网络自动驾驶多模态数据融合 RGB-LiDAR融合

本文链接：https://blog.csdn.net/u013531940/article/details/115794760

版权

目标检测专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文目录

论文阅读时间: 2021-4-17 14:30:08

〇、个人评价

对3D Lidar数据的不同方式的表示有必要阅读。

一、Title

Optimal Sensor Data Fusion Architecture for Object Detection in Adverse Weather Conditions

二、Conference

2018 21st International Conference on Information Fusion (FUSION)

三、Background

当前目标检测只能在良好的天气条件下产生良好的结果，但在恶劣的天气条件下，如雪、雨、雾甚至在耀眼的阳光下，性能会大大降低。因此，当前目标检测利用几种不同类型的传感器来客服单个传感器的天气敏感性。例如，在刺眼的阳光下，相机图像包含大片白色区域没有任何关于环境的信息，而LiDAR仍然提供相应环境的深度值，此时只能通过使用Lidar的数据来检测障碍物。然而，目前的大多数目标检测都是针对良好的天气条件进行训练和优化的，这在很大程度上取决于良好且无误差的传感器数据。

这篇论文的方法能够处理部分和完全传感器故障，在这种情况下仍提供良好的性能。在Lidar失效的情况下，当前技术水平和这篇论文所提出的目标检测之间的差异可以在下图看到。

为了通过神经网络融合RGB和Lidar数据，必须将传感器数据转换成合适的格式，以便将数据馈送到神经网络中。因此需要对RGB和Lidar数据进行一些预处理。RGB通常首先被调整到神经网络的预定义输入大小，同时保持其纵横比不变。此外，从RGB图像中减去图像平均值以减少图像照明的影响。

对于Lidar数据，一个常见的问题是，由于3D点的稀疏性和3D卷积的高计算成本，通过神经网络处理3D点云是时间密集型的。因此，大多数当前的方法将3D点转换成2D特征图，使得能够通过神经网络进行快速和良好的处理。第一种方法是将3D激光雷达点转换成2D距离扫描图像，在下文中表示为Lidar Image。Lidar Image不包含先验知识，例如不同传感器的空间校准。然而，向模型中添加先验知识可能会提高性能，因为这种知识不必通过神经网络来学习。因此，另一种可能的Lidar数据表示方法是将3D激光雷达点投影到图像平面中，从而产生Sparse Depth Image。通过这种投影，给模型提供了摄像机和激光雷达的空间关系先验知识。可以通过添加额外的先验知识来进一步增强Sparse Depth Image，从而产生Dense Depth Image。Dense Depth Image是通过在一个小邻域内的稀疏激光雷达点之间进行插值来创建的。

1. Lidar Image的生成

Lidar Image仅由Lidar的信息组成，其高度对应于Lidar扫描通道 $C$ 的数量，其宽度对应于Lidar扫描旋转的点数。此外，Lidar Image的每个像素代表深度信息。设Lidar数据为包含 $N$ 个点的点云 $P$ ，每个点用 $\begin{equation} p_i \end{equation}$ 表示。每个点 $\begin{equation} p_i \end{equation}$ 通过式1转换到Lidar Image的位置 $\begin{equation} (c, r) \end{equation}$ ，其中 $\begin{equation} \Delta \phi \end{equation}$ 和 $\begin{equation} \Delta \Theta \end{equation}$ 是Lidar的垂直和水平角度的平均分辨率。Lidar的每个像素 $\begin{equation} (c, r) \end{equation}$ 被赋予相应的深度值 $\begin{equation} d=\sqrt{x^{2}+y^{2}} \end{equation}$ 。

$\begin{array}{l} c=\left\lfloor\arcsin \left(z / \sqrt{x^{2}+y^{2}+z^{2}}\right) / \Delta \phi\right\rfloor \\ r=\lfloor\operatorname{atan} 2(y, x) / \Delta \Theta\rfloor \end{array}$

（1）

2. Sparse Depth Image的生成

Lidar Image的缺点是RGB和Lidar Image具有不同的尺寸。因此，不可能像Early Fusion方法那样，将RGB和Lidar数据合并到共同的4D输入张量。相比之下，Lidar数据的合适的2D表示是Sparse Depth Image，其具有与相机图像相同的大小，使得RGB和Lidar数据可以组合成共同的4D张量。对于Sparse Depth Image，3D点被投影到图像平面。通过这种投影，神经网络通过投影矩阵获得了一些附加信息，即RGB和Lidar的空间关系。Sparse Depth Image由式2产生。 $\begin{equation} f_{x} \end{equation}$ 和 $\begin{equation} f_{y} \end{equation}$ 是 $\begin{equation} x \end{equation}$ 轴和 $\begin{equation} y \end{equation}$ 轴的焦距， $\begin{equation} \left(O_{x}, O_{y}\right) \end{equation}$ 是相机的光学中心， $\begin{equation} \theta \end{equation}$ 是其偏斜参数。参数比较繁多，这里就不再过多介绍，如果需要，直接查看原文即可。

$\begin{equation} \begin{array}{l} x_{n}=-x / z \\ y_{n}=-y / z \end{array} \end{equation}$

$\begin{equation} \begin{aligned} r^{2} &=x_{n}^{2}+y_{n}^{2} \\ f(r) &=1+\kappa_{1} r^{2}+\kappa_{2} r^{4}+\kappa_{3} r^{6} \\ \mathbf{m}_{d} &=\left(\begin{array}{c} f(r) x_{n}+2 \kappa_{4} x_{n} y_{n}+\kappa_{5}\left(r^{2}+2 x_{n}^{2}\right) \\ f(r) y_{n}+2 \kappa_{5} x_{n} y_{n}+\kappa_{4}\left(r^{2}+2 y_{n}^{2}\right) \\ 1 \end{array}\right) \\ \tilde{\mathbf{p}}_{i} &=\left(\begin{array}{ccc} f_{x} & \theta & o_{x} \\ 0 & f_{y} & o_{y} \\ 0 & 0 & 1 \end{array}\right) \cdot \mathbf{m}_{d} \end{aligned} \end{equation}$

（2）

3. Dense Depth Image的生成

将3D激光雷达点转换到图像平面生成Sparse Depth Image，其中大多数像素不包含任何深度信息。这可能是一个问题，尤其是对于较小的网络架构，融合方法的性能可能会变得更差。在最佳情况下，该表示的每个像素包含对应的深度值，类似于立体摄像机的视差图。因此，假设sparse projected lidar points（此处用英文表示）之间的深度值不会偏离太多。由此，可以在没有任何信息损失的情况下生成密集的深度图，并且通过插值来填充没有深度信息的像素。例如，使用邻域深度信息的均值来填充没有深度信息的像素，可以参考式（3）。

$\begin{equation} d^{*}=\sum_{\mathbf{p} \in \mathcal{N}} \frac{1}{N_{\mathcal{N}}} d_{\mathbf{p}} \end{equation}$

（3）