多传感器融合系列之感知后融合

1. 后融合系统输入输出

(1)后融合输入解析——3D检测任务

​ 在多传感器融合中,不同传感器的工作频率是不一样的。对于GNSS + IMU的融合定位数据,通常以100Hz发布;对于LiDAR点云数据,通常以10Hz的频率发送检测结果。

​ 3D激光点云检测的步骤通常为:输入LiDAR PointCloud,经过3D检测任务(3D Detection)和3D跟踪任务(3D MOT),最终输出3D的目标级障碍物(LiDAR Objects)。
在这里插入图片描述
 经过LiDAR检测算法处理后,会生成LiDAR Object形式的结果,并以LiDAR Object列表的形式将其属性下发到后融合模块。
在这里插入图片描述
(2)后融合输入解析——3D分割任务

​ 3D激光点云分割的步骤通常为:输入LiDAR PointCloud,经过3D分割任务(3D Segmentation)和后处理任务(Post Process),最终输出分割得到的点云及标签(PointCloud / Polygons & Labels)。
在这里插入图片描述
 分割后的结果,以如下新的点云格式或者polygons的形式下发至后融合模块
在这里插入图片描述
(3)后融合输出解析——3D任务输出

​ 多传感器时序处理过程如右图所示,其中LiDAR处理耗时控制在100ms以内,并将3D检测与分割的结果(左图)送入后融合模块中。
在这里插入图片描述
(4)后融合输入解析——2D检测任务

​ 多传感器时序处理过程如下图所示:
在这里插入图片描述
  2D检测的步骤通常为:输入image,经过2D检测任务(2D Detection)和2D多目标跟踪以及后处理任务(2D MOT & Post Process),最终输出图像级的检测目标(Camera Objects)。
在这里插入图片描述
 经过目标检测与跟踪算法处理后,生成的Camera Object结果的形式如下,最后以Camera Object列表的形式下发到后融合模块。
在这里插入图片描述
(5)后融合输入解析——2D分割任务

​ 2D图像分割的步骤通常为:输入Image,经过2D分割任务(2D Segmentation)和后处理任务(Post Process),最终输出分割得到的图像级目标或多边形区域及标签(Image / Polygons & Labels)。
 其分割结果表达如下,并最终以同尺寸的新Image的形式下发到后融合模块:
在这里插入图片描述
(6)后融合输出解析——2D任务输出

​ 2D任务中多传感器时序处理过程如右图所示,其中Camera处理耗时控制在30ms以内,并将2D检测与分割的结果送入后融合模块中,具体包括:2D检测的时间戳与检测到的目标级属性,2D分割的时间戳与分割得到的像素级属性。
在这里插入图片描述
(7)后融合输入解析——Radar检测任务

​ 多传感器时序处理过程如下图所示:
在这里插入图片描述
 Radar检测的步骤通常为:输入Radar获取到的原始点云信息(Radar PointCloud),然后对其分别进行聚类(cluster)、跟踪(tracker)与后处理(post process),最终得到Radar下的检测目标。通常拿到的Radar设备,前三个模块(输入的点云、聚类及跟踪)都是封装好的,用户只需对其输出进行后处理(如滤波、去噪等操作),获取Radar最终的检测结果。
在这里插入图片描述
 Radar检测生成的Radar Object目标形式如下,最终将其以Radar Object列表的形式下发到后融合模块中
在这里插入图片描述
(8)后融合输出解析——Radar任务输出

​ Radar检测任务中多传感器时序处理过程如右图所示,其中Radar处理耗时控制在10ms以内,并将Radar检测的结果送入后融合模块中,具体包括:Radar检测的时间戳与检测到的目标级属性。
在这里插入图片描述
(9)后融合输入输出汇总——LiDAR + Camera + Radar融合(L4级)

​ 在LiDAR + Camera + Radar多传感器后融合中,输入分别是:LiDAR的分割与检测结果、Camera的分割与检测结果以及Radar的检测结果,分别以延迟 < 100ms、延迟 < 30ms、 延迟 < 10ms的通讯机制传输给后融合模块。然后,在后融合模块中分别进行目标级对象和语义级对象的处理。
在这里插入图片描述

2. 多传感器后融合系统

(1)后融合问题建模

​ 从输入输出的角度来看,需要将多传感器的观测量与待估计的目标状态量进行融合,由此可将问题转化为系统的状态估计问题。
在这里插入图片描述
(2)多传感器后融合需要解决的问题

  • 观测量时空不对齐

​ 每个传感器中各模态的耗时以及相应结果送入后融合模块的时间都不一样,使得各模态输入都会存在相应的延迟,由此会导致时空对齐问题。
在这里插入图片描述

  • 单帧多目标,如何确定某个独立目标的观测量,由此涉及到目标匹配问题
    在这里插入图片描述

(3)多传感器后融合系统结构

​ 基于以上多传感器后融合需要解决的问题中,涉及到的:多观测条件下的系统状态估计问题、时空对齐(预测)问题、目标匹配问题,构建如下的多传感器后融合系统结构。

  • 预测模块

​ 对于LiDAR、Camera、Radar观测结果,将其输入到预测模块中,根据自车运动和目标的运动估计,进行时空对齐,使得各传感器的延迟统一

  • 目标关联

​ 对于各传感器的输出结果,以当前帧的观测量来更新上一帧的状态量,实现在不同帧上进行对应的目标关联

  • 状态估计

​ 对观测量与状态量之间的关系进行建模,进行当前帧的状态估计,最终输出目标级对象和语义级对象
在这里插入图片描述

3. 预测及目标关联

3.1 观测和状态的时空对齐——预测问题

 下图为多传感器时序处理过程,由于IMU、Camera、LiDAR和Radar的频率不一样,使得各个传感器的数据存在延迟( Δ t c a m e r a , Δ t r a d a r , Δ t l i d a r \Delta t_{camera}, \Delta t_{radar},\Delta t_{lidar} Δtcamera,Δtradar,Δtlidar),导致它们到达后融合的观测时间 M e a t C a m e r a , M e a t R a d a r , M e a t L i D A R Mea_t^{Camera},Mea_t^{Radar},Mea_t^{LiDAR} MeatCamera,MeatRadar,MeatLiDAR都不一致。另外,状态量是系统内部周期性离散维护的时间,如下面的 S t a t e t − 1 , S t a t e t State_{t-1},State_t Statet1,Statet
在这里插入图片描述
 假设状态量是100ms更新一次,则每一次观测量到达时,状态量都是滞后的。由于进行的是时空对齐,因此只需要关注引起空间位置变换的状态和观测量:(a) 位姿状态:如yaw和yaw_rate;(b) 运动状态:如位置、速度和加速度等。

3.2 对齐方式

方法一:将 t − 1 t-1 t1时刻的状态 S t a t e t − 1 State_{t-1} Statet1对齐到 t t t时刻各传感器的观测量
M e a t R a d a r , M e a t C a m e r a , M e a t L i D A R Mea_t^{Radar},Mea_t^{Camera},Mea_t^{LiDAR} MeatRadar,MeatCamera,MeatLiDAR)处

方法二:将 t t t时刻各传感器的观测量( M e a t R a d a r , M e a t C a m e r a , M e a t L i D A R Mea_t^{Radar},Mea_t^{Camera},Mea_t^{LiDAR} MeatRadar,MeatCamera,MeatLiDAR)对齐到 t − 1 t-1 t1时刻的状态 S t a t e t − 1 State_{t-1} Statet1

​ 原则上两种对齐方式都可以,因为 S t a t e State State是基于多传感器得到的状态量,所以它的精度比各单传感器的精度要高,预测误差更小,故实际中更倾向于第一种对齐方式。

​ 对齐分为目标级对象对齐和语义级对象对齐两种,具体如下:

(1)目标级对象对齐

  • 对于LiDAR和Radar,它的状态包括位姿、速度和加速度等信息,可通过直接进行位姿变换来对齐
    S t a t e t = T e g o t t − 1 S t a t e t − 1 State_t = T_{ego_t}^{t-1}State_{t-1} Statet=Tegott1Statet1
    对于Camera,当涉及到两个2D目标之间的对齐时,由于缺少3D空间信息,故无法对齐。当涉及到2D图像观测与3D目标状态之间的对齐时,一般是通过将3D信息投影到2D进行对齐:
    S t a t e t − 1 2 D = H T e g o t t − 1 S t a t e t − 1 3 D State_{t-1}^{2D} = HT_{ego_t}^{t-1}State_{t-1}^{3D} Statet12D=HTegott1Statet13D

​ 其中, H H H矩阵中包含 T c a m e r a c a r T_{camera}^{car} Tcameracar及内参矩阵

(2)语义级对象对齐

  • 对于LiDAR,由于 S t a t e s States States​包含3D点的位置信息,同样可通过如下的位姿变换来对齐:
    S t a t e t = T e g o t t − 1 S t a t e t − 1 State_t = T_{ego_t}^{t-1}State_{t-1} Statet=Tegott1Statet1

    • 对于Camera,当涉及到两个2D目标之间的对齐时,由于缺少3D空间信息,仍然无法对齐。当涉及到2D图像观测与3D目标状态之间的对齐时,与目标级对象对齐一样,也是通过将3D信息投影到2D进行对齐:
      S t a t e t − 1 2 D = H T e g o t t − 1 S t a t e t − 1 3 D State_{t-1}^{2D} = HT_{ego_t}^{t-1}State_{t-1}^{3D} Statet12D=HTegott1Statet13D

3.3 关联问题——匹配算法:如何确定两帧观测到的是同一个对象

(1)目标级对象匹配问题

​ 通常情况下,目标级对象匹配最终希望得到的是:通过多传感器(LiDAR + Camera + Radar)的作用,得到不同时刻下同一个目标最终的3D bounding box。但如果只有Camera + Radar,则会得到中间的2D bounding box及其相应的distance与velocity状态,但最终还是会转向3D bounding box。

(2)目标级对象匹配时的关联度量

LiDAR + Radar + Camera融合:由于最终的目标状态量为完整的3D bounding box,故各种观测的匹配度量方式如下:

  • 由于LiDAR最终的检测结果也是3D bounding box,故其匹配是通过计算两个目标的3D bounding box的IoU来进行度量的

d = 3 D I o U ( b b o x 3 D , 1 , b b o x 3 D , 2 ) d = 3DIoU(bbox_{3D,1},bbox_{3D,2}) d=3DIoU(bbox3D,1,bbox3D,2)

  • 由于Radar检测结果没有尺寸和高度信息,因此通常认为其检测到的目标处于3D bounding box内部,即认为是匹配上了

d = { ∣ x , − x ∣ < l e n g t h ∣ y , − y ∣ < w i d t h   d = \left\{ \begin{array}{rcl} |x^, - x| < length \\ |y^, - y| < width \ \end{array}\right. d={ x,x<<

  • 1
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值