RODNet

RODNet是一种新型的深度雷达目标检测网络,通过相机-雷达融合进行交叉监督,无需大量注释即可实时检测RF图像中的目标。网络包括M-Net模块处理多线性调频信息和时间可变形卷积模块捕捉目标相对运动。训练过程利用融合策略进行3D定位的交叉监督,提高检测准确性。
摘要由CSDN通过智能技术生成

Abstract:

提出了一种名为RODNet的深度雷达目标检测网络,该网络由相机-雷达融合算法交叉监督,无需费力的注释工作,可以有效地实时检测射频(RF)图像中的目标。

工作流程:

  1. 将毫米波雷达捕获的原始信号转换为距离-方位坐标中的RF图像。

  1. RODNet以一系列RF图像作为输入,来预测雷达视场(FoV)中物体的可能性.

  1. 增加了两个定制模块(M-net和时间可变形卷积模块TDC)来处理多线性调频信息和物体相对运动。

训练策略:

RODNet不是使用人类标记的地面实况进行训练,而是在训练阶段使用相机-雷达融合(CRF)策略对检测到的物体进行新的3D定位来交叉监督。

RODNet

输入:

不同于以往直接处理radar点云,而是使用了更原始的数据。按照处理的radar数据格式可分为两类,一类是点云,一类就是pre-CFAR数据,包括了RAD,RA,RD等。关于雷达信号的处理流程如下:

radar信号的针对性处理

丰富的运动信息:根据无线电信号的多普勒原理,包含了丰富的运动信息。物体的速度及其随时间的变化规律取决于其表面纹理信息、尺寸和形状细节等。例如,非刚体(如行人)的运动信息通常分布广泛,而刚体(如汽车)的运动信号由于多普勒效应应该更一致。为了更好地利用时间信息,我们需要考虑多个连续的雷达帧,而不是一个单独的帧作为系统输入。

分辨率不一致:在距离上具有高分辨率,角度上低分辨率。

复数:无线电信号通常表示为包含频率和相位信息的复数。

针对性举措:1) 提取时间信息;2) 处理多个空间尺度;3) 能够处理复数数据。

RODNET结构:

3D CNN自动编码器网络:

输入序列:

RF images R with dimension (CRF , T, n, H, W ),其中CRF表示复数图像中的通道数目,实数虚数所以为2,T代表帧数,n代表一帧的长度,即一帧中chirp的数目,H、W表示图像的高宽。

输出序列:

ConfMaps ˆD with dimension (Ccls, T, H, W ),其中Ccls代表目标种类。RODNet为雷达RF图像的每个对象类别预测单独的ConfMaps。

损失函数:

二进制交叉熵损失函数:

D represents the ConfMaps generated from CRF annotations, ˆD represents the predicted ConfMaps, (i, j) represents the pixel indices, and cls is the class label.

M-Net Module:

前面介绍的temporal inception convolution layer 是为了融和不同帧之间的时序信息,实际上每一帧内部的chirp之间也存在宝贵的时序信息,而且这个时序信息是求解距离、角度和多普勒速度的关键。因此为了更好地集成来自不同chirp的动态信息,在将RF片段发送到RODNet之前,提出了一个称为M-Net的定制模块。总结来说就是:M-Net模块将具有多个雷达chirp的一帧作为输入,并输出该帧的合并特征。实质是利用神经网络代替了传统的DFT融合一帧内不同chirp信息来求解多普勒速度。

其输入维度是:(CRF , n, H, W )

输出维度是:(C1, H, W )----C1 is the number of filters for the temporal convolution.

Temporal Deformable Convolution:

该模块的动机是:在一帧内,目标会发生相对运动,物体在雷达距离方位坐标中的位置可能会发生偏移,这意味着RF图像中的反射模式可能会改变它们在片段中的位置。然而,经典的3D卷积只能捕捉规则长方体内的静态特征。因此,它不是具有对象相对运动的RF片段的最佳特征提取器。

所谓可变性卷积就是在进行权重运算时加入了一个额外的偏移,如公式所示:

即对于特征图上每一个点都存在一个偏移。

需要强调的一点是,该偏移矩阵只在一帧内有效。

因为该偏移量通常是分数,所以X值该如何确定还要用到线性插值:

where p = p0+pn+∆pn is the fractional location; q enumerates all integer locations in the 3D feature map x; and G is the bilinear interpolation kernel which is also two dimensional in the spatial domain.

Post-processing by Location-based NMS:

该模块是在ConfMaps输出之后,用于去除冗余,类似于传统的NMS但是在RF图像中不存在边界框,无法计算IOU,但是受到人体姿态评估定义中关键点相似性(oks)启发,定义了对象位置相似性(ols),类似于IoU的作用,以描述两次检测之间的相关性,考虑到它们在ConfMaps上的距离、类别和尺度信息。

其中,d是RF图像上两点之间的距离;s是目标距离雷达传感器的距离即尺度信息;kcls是每个类的常数,表示该类的容错能力,可由该类对象的平均大小来确定。该形式类似于高斯分布,其中d是偏差,s*kcls是标准差。定义了相似性度量之后,就是采取非极大值抑制的过程(和nms思想一致):

首先就是各个通道找到该二维特征图中的局部峰值,得到一个关于峰值的集合A,然后挑选最高置信度的峰值放入最终的峰值集合B,并将其移除A,然后将其与余下的A集合峰值进行相似性比较,相似性超过阈值则将其从A中剔除;比较完成之后,就是在A种重新找到置信度最高峰值,重复之前的操作,直到A集合变成空集。

CROSS-MODAL SUPERVISION

在将radar和相机融合时,需要将图像的笛卡尔坐标系转换到极坐标系,

然后分别得出雷达和相机的概率分布图,二者相乘进行融合,得到最终的概率分布图。

CRUW DATASET

该数据集使用雷达数据的RF图像格式,传感器平台包含一对立体相机和两个垂直的77GHz FMCW毫米波雷达天线阵列。组装并安装在一起的传感器经过了良好的校准和同步。传感器平台的一些配置如表所示。尽管最终跨模态监督只需要一个单眼摄像机,但立体摄像机的设置是为了为CRF监督的性能验证提供深度的真实情况。

experiments

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值