RODNet

最新推荐文章于 2024-05-16 14:40:34 发布

財鸟

最新推荐文章于 2024-05-16 14:40:34 发布

阅读量698

点赞数 4

分类专栏：毫米波雷达文章标签：计算机视觉人工智能 Powered by 金山文档

本文链接：https://blog.csdn.net/qq_46460131/article/details/129662158

版权

毫米波雷达专栏收录该内容

4 篇文章 0 订阅

订阅专栏

RODNet是一种新型的深度雷达目标检测网络，通过相机-雷达融合进行交叉监督，无需大量注释即可实时检测RF图像中的目标。网络包括M-Net模块处理多线性调频信息和时间可变形卷积模块捕捉目标相对运动。训练过程利用融合策略进行3D定位的交叉监督，提高检测准确性。

摘要由CSDN通过智能技术生成

Abstract:

提出了一种名为RODNet的深度雷达目标检测网络，该网络由相机-雷达融合算法交叉监督，无需费力的注释工作，可以有效地实时检测射频（RF）图像中的目标。

工作流程：

将毫米波雷达捕获的原始信号转换为距离-方位坐标中的RF图像。

RODNet以一系列RF图像作为输入，来预测雷达视场（FoV）中物体的可能性.

增加了两个定制模块(M-net和时间可变形卷积模块TDC)来处理多线性调频信息和物体相对运动。

训练策略：

RODNet不是使用人类标记的地面实况进行训练，而是在训练阶段使用相机-雷达融合（CRF）策略对检测到的物体进行新的3D定位来交叉监督。

RODNet

输入：

不同于以往直接处理radar点云，而是使用了更原始的数据。按照处理的radar数据格式可分为两类，一类是点云，一类就是pre-CFAR数据，包括了RAD，RA,RD等。关于雷达信号的处理流程如下：

radar信号的针对性处理

丰富的运动信息：根据无线电信号的多普勒原理，包含了丰富的运动信息。物体的速度及其随时间的变化规律取决于其表面纹理信息、尺寸和形状细节等。例如，非刚体（如行人）的运动信息通常分布广泛，而刚体（如汽车）的运动信号由于多普勒效应应该更一致。为了更好地利用时间信息，我们需要考虑多个连续的雷达帧，而不是一个单独的帧作为系统输入。

分辨率不一致：在距离上具有高分辨率，角度上低分辨率。

复数：无线电信号通常表示为包含频率和相位信息的复数。

针对性举措：1）提取时间信息；2）处理多个空间尺度；3）能够处理复数数据。

RODNET结构：

3D CNN自动编码器网络:

输入序列：

RF images R with dimension (CRF , T, n, H, W )，其中CRF表示复数图像中的通道数目，实数虚数所以为2，T代表帧数，n代表一帧的长度，即一帧中chirp的数目，H、W表示图像的高宽。

输出序列：

ConfMaps ˆD with dimension (Ccls, T, H, W )，其中Ccls代表目标种类。RODNet为雷达RF图像的每个对象类别预测单独的ConfMaps。

损失函数：

二进制交叉熵损失函数：

D represents the ConfMaps generated from CRF annotations, ˆD represents the predicted ConfMaps, (i, j) represents the pixel indices, and cls is the class label.

M-Net Module：

前面介绍的temporal inception convolution layer 是为了融和不同帧之间的时序信息，实际上每一帧内部的chirp之间也存在宝贵的时序信息，而且这个时序信息是求解距离、角度和多普勒速度的关键。因此为了更好地集成来自不同chirp的动态信息，在将RF片段发送到RODNet之前，提出了一个称为M-Net的定制模块。总结来说就是：M-Net模块将具有多个雷达chirp的一帧作为输入，并输出该帧的合并特征。实质是利用神经网络代替了传统的DFT融合一帧内不同chirp信息来求解多普勒速度。

其输入维度是：(CRF , n, H, W )

输出维度是：(C1, H, W )----C1 is the number of filters for the temporal convolution.

Temporal Deformable Convolution:

该模块的动机是：在一帧内，目标会发生相对运动，物体在雷达距离方位坐标中的位置可能会发生偏移，这意味着RF图像中的反射模式可能会改变它们在片段中的位置。然而，经典的3D卷积只能捕捉规则长方体内的静态特征。因此，它不是具有对象相对运动的RF片段的最佳特征提取器。

所谓可变性卷积就是在进行权重运算时加入了一个额外的偏移，如公式所示：

即对于特征图上每一个点都存在一个偏移。

需要强调的一点是，该偏移矩阵只在一帧内有效。

因为该偏移量通常是分数，所以X值该如何确定还要用到线性插值：

where p = p0+pn+∆pn is the fractional location; q enumerates all integer locations in the 3D feature map x; and G is the bilinear interpolation kernel which is also two dimensional in the spatial domain.

Post-processing by Location-based NMS：

该模块是在ConfMaps输出之后，用于去除冗余，类似于传统的NMS但是在RF图像中不存在边界框，无法计算IOU，但是受到人体姿态评估定义中关键点相似性（oks）启发，定义了对象位置相似性（ols），类似于IoU的作用，以描述两次检测之间的相关性，考虑到它们在ConfMaps上的距离、类别和尺度信息。