多传感器融合系列之感知后融合

最新推荐文章于 2025-01-06 09:00:00 发布

LDST_CSDN

最新推荐文章于 2025-01-06 09:00:00 发布

阅读量1.6k

点赞数 1

文章标签：计算机视觉人工智能自动驾驶

本文链接：https://blog.csdn.net/LDST_CSDN/article/details/130667250

版权

本文详细介绍了自动驾驶中多传感器融合的后融合处理，包括LiDAR、Camera、Radar的输入输出解析，时空对齐、目标关联问题以及预测模块和状态估计。针对不同传感器的数据延迟和不同帧间目标匹配，文章提出了匹配算法和Kuhn-Munkres算法。后融合状态估计部分，探讨了Kalman Filter和Extended Kalman Filter在状态估计中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 后融合系统输入输出

（1）后融合输入解析——3D检测任务

在多传感器融合中，不同传感器的工作频率是不一样的。对于GNSS + IMU的融合定位数据，通常以100Hz发布；对于LiDAR点云数据，通常以10Hz的频率发送检测结果。

3D激光点云检测的步骤通常为：输入LiDAR PointCloud，经过3D检测任务（3D Detection）和3D跟踪任务（3D MOT），最终输出3D的目标级障碍物（LiDAR Objects）。
在这里插入图片描述
经过LiDAR检测算法处理后，会生成LiDAR Object形式的结果，并以LiDAR Object列表的形式将其属性下发到后融合模块。

（2）后融合输入解析——3D分割任务

3D激光点云分割的步骤通常为：输入LiDAR PointCloud，经过3D分割任务（3D Segmentation）和后处理任务（Post Process），最终输出分割得到的点云及标签（PointCloud / Polygons & Labels）。
在这里插入图片描述
分割后的结果，以如下新的点云格式或者polygons的形式下发至后融合模块

（3）后融合输出解析——3D任务输出

多传感器时序处理过程如右图所示，其中LiDAR处理耗时控制在100ms以内，并将3D检测与分割的结果（左图）送入后融合模块中。
在这里插入图片描述
（4）后融合输入解析——2D检测任务

多传感器时序处理过程如下图所示：
在这里插入图片描述
2D检测的步骤通常为：输入image，经过2D检测任务（2D Detection）和2D多目标跟踪以及后处理任务（2D MOT & Post Process），最终输出图像级的检测目标（Camera Objects）。

经过目标检测与跟踪算法处理后，生成的Camera Object结果的形式如下，最后以Camera Object列表的形式下发到后融合模块。
在这里插入图片描述
（5）后融合输入解析——2D分割任务

2D图像分割的步骤通常为：输入Image，经过2D分割任务（2D Segmentation）和后处理任务（Post Process），最终输出分割得到的图像级目标或多边形区域及标签（Image / Polygons & Labels）。
其分割结果表达如下，并最终以同尺寸的新Image的形式下发到后融合模块：
在这里插入图片描述
（6）后融合输出解析——2D任务输出

2D任务中多传感器时序处理过程如右图所示，其中Camera处理耗时控制在30ms以内，并将2D检测与分割的结果送入后融合模块中，具体包括：2D检测的时间戳与检测到的目标级属性，2D分割的时间戳与分割得到的像素级属性。
在这里插入图片描述
（7）后融合输入解析——Radar检测任务

多传感器时序处理过程如下图所示：
在这里插入图片描述
Radar检测的步骤通常为：输入Radar获取到的原始点云信息（Radar PointCloud），然后对其分别进行聚类（cluster）、跟踪（tracker）与后处理（post process），最终得到Radar下的检测目标。通常拿到的Radar设备，前三个模块（输入的点云、聚类及跟踪）都是封装好的，用户只需对其输出进行后处理（如滤波、去噪等操作），获取Radar最终的检测结果。
在这里插入图片描述
Radar检测生成的Radar Object目标形式如下，最终将其以Radar Object列表的形式下发到后融合模块中

（8）后融合输出解析——Radar任务输出

Radar检测任务中多传感器时序处理过程如右图所示，其中Radar处理耗时控制在10ms以内，并将Radar检测的结果送入后融合模块中，具体包括：Radar检测的时间戳与检测到的目标级属性。
在这里插入图片描述
（9）后融合输入输出汇总——LiDAR + Camera + Radar融合（L4级）

在LiDAR + Camera + Radar多传感器后融合中，输入分别是：LiDAR的分割与检测结果、Camera的分割与检测结果以及Radar的检测结果，分别以延迟 < 100ms、延迟 < 30ms、延迟 < 10ms的通讯机制传输给后融合模块。然后，在后融合模块中分别进行目标级对象和语义级对象的处理。
在这里插入图片描述

2. 多传感器后融合系统

（1）后融合问题建模

从输入输出的角度来看，需要将多传感器的观测量与待估计的目标状态量进行融合，由此可将问题转化为系统的状态估计问题。
在这里插入图片描述
（2）多传感器后融合需要解决的问题

观测量时空不对齐

每个传感器中各模态的耗时以及相应结果送入后融合模块的时间都不一样，使得各模态输入都会存在相应的延迟，由此会导致时空对齐问题。
在这里插入图片描述

单帧多目标，如何确定某个独立目标的观测量，由此涉及到目标匹配问题

（3）多传感器后融合系统结构

基于以上多传感器后融合需要解决的问题中，涉及到的：多观测条件下的系统状态估计问题、时空对齐（预测）问题、目标匹配问题，构建如下的多传感器后融合系统结构。

预测模块

对于LiDAR、Camera、Radar观测结果，将其输入到预测模块中，根据自车运动和目标的运动估计，进行时空对齐，使得各传感器的延迟统一

目标关联

对于各传感器的输出结果，以当前帧的观测量来更新上一帧的状态量，实现在不同帧上进行对应的目标关联

状态估计

对观测量与状态量之间的关系进行建模，进行当前帧的状态估计，最终输出目标级对象和语义级对象
在这里插入图片描述

3. 预测及目标关联

3.1 观测和状态的时空对齐——预测问题

下图为多传感器时序处理过程，由于IMU、Camera、LiDAR和Radar的频率不一样，使得各个传感器的数据存在延迟（ $\Delta t_{camera}, \Delta t_{radar},\Delta t_{lidar}$ ），导致它们到达后融合的观测时间 $Mea_t^{Camera},Mea_t^{Radar},Mea_t^{LiDAR}$ 都不一致。另外，状态量是系统内部周期性离散维护的时间，如下面的 $State_{t-1},State_t$
在这里插入图片描述
假设状态量是100ms更新一次，则每一次观测量到达时，状态量都是滞后的。由于进行的是时空对齐，因此只需要关注引起空间位置变换的状态和观测量：(a) 位姿状态：如yaw和yaw_rate；(b) 运动状态：如位置、速度和加速度等。

3.2 对齐方式

方法一：将 $t - 1$ 时刻的状态 $State_{t-1}$ 对齐到 $t$ 时刻各传感器的观测量
（ $Mea_t^{Radar},Mea_t^{Camera},Mea_t^{LiDAR}$ ）处

方法二：将 $t$ 时刻各传感器的观测量（ $Mea_t^{Radar},Mea_t^{Camera},Mea_t^{LiDAR}$ ）对齐到 $t - 1$ 时刻的状态 $State_{t-1}$

原则上两种对齐方式都可以，因为 $St a t e$ 是基于多传感器得到的状态量，所以它的精度比各单传感器的精度要高，预测误差更小，故实际中更倾向于第一种对齐方式。

对齐分为目标级对象对齐和语义级对象对齐两种，具体如下：

（1）目标级对象对齐

对于LiDAR和Radar，它的状态包括位姿、速度和加速度等信息，可通过直接进行位姿变换来对齐
$State_t = T_{ego_t}^{t-1}State_{t-1}$
对于Camera，当涉及到两个2D目标之间的对齐时，由于缺少3D空间信息，故无法对齐。当涉及到2D图像观测与3D目标状态之间的对齐时，一般是通过将3D信息投影到2D进行对齐：
$State_{t-1}^{2D} = HT_{ego_t}^{t-1}State_{t-1}^{3D}$

其中， $H$ 矩阵中包含 $T_{camera}^{car}$ 及内参矩阵

（2）语义级对象对齐

对于LiDAR，由于 $St a t es$ 包含3D点的位置信息，同样可通过如下的位姿变换来对齐：
$State_t = T_{ego_t}^{t-1}State_{t-1}$
- 对于Camera，当涉及到两个2D目标之间的对齐时，由于缺少3D空间信息，仍然无法对齐。当涉及到2D图像观测与3D目标状态之间的对齐时，与目标级对象对齐一样，也是通过将3D信息投影到2D进行对齐：
  $State_{t-1}^{2D} = HT_{ego_t}^{t-1}State_{t-1}^{3D}$

3.3 关联问题——匹配算法：如何确定两帧观测到的是同一个对象

（1）目标级对象匹配问题

通常情况下，目标级对象匹配最终希望得到的是：通过多传感器（LiDAR + Camera + Radar）的作用，得到不同时刻下同一个目标最终的3D bounding box。但如果只有Camera + Radar，则会得到中间的2D bounding box及其相应的distance与velocity状态，但最终还是会转向3D bounding box。

（2）目标级对象匹配时的关联度量

LiDAR + Radar + Camera融合：由于最终的目标状态量为完整的3D bounding box，故各种观测的匹配度量方式如下：