CNN：目标检测在自动驾驶应用中的应用

yuyuelongfly

已于 2023-08-21 17:23:23 修改

阅读量1.5k

点赞数

分类专栏：算法自动驾驶文章标签： cnn 目标检测自动驾驶

于 2022-05-07 14:46:38 首次发布

本文链接：https://blog.csdn.net/Cxiazaiyu/article/details/124630673

版权

本文详细探讨了3D目标检测（3D-OD）在自动驾驶中的应用，包括Mono-3D、BEV-3D和Transformer-Based方法。介绍了各种技术的挑战和解决方案，如深度预测、BEV视角转换和Transformer在3D检测中的应用。此外，还讨论了库位检测（PSD）的局部-全局检测策略，以及直接全局检测和同时全局-局部检测的方法。

摘要由CSDN通过智能技术生成

一、3D-OD

1.1 Mono-3D

3D-OD在图像上目标检测的基础上，还需要给出相机坐标系或世界坐标系下目标的（x,y,z,h,w,l,theta）。其中，(x,y,z)目标中心点在相机坐标系下的坐标，(l,w,h)是目标的长、宽、高，theta是orientation中的yaw角。其中，（x,y,z）中depth z往往直接回归；x和y一般是预测图像上的像素offset，并通过内参K约束计算而来。

由相机内参投影方程得：

$\vec{u}=K*\vec{x_{c}}$ ，

即：

$\begin{bmatrix} u\\v \\1 \end{bmatrix}z_{c}=\begin{bmatrix} f_{x} & 0 & c_{x} & 0\\ 0 & f_{y} & c_{y} & 0\\ 0 & 0 & 1 & 0\end{bmatrix} \begin{bmatrix}x_{c} \\ y_{c} \\ z_{c} \\1 \end{bmatrix}$ ，

$uz_{c} = f_{x}x_{c}+c_{x}z_{c}$ ，

对于相同距离的两点：

$u_{1}z_{c} = f_{x}x_{c1}+c_{x}z_{c}$ ，

$u_{2}z_{c} = f_{x}x_{c2}+c_{x}z_{c}$ ，

以上两式相减得：

$\Delta uz_{c} = f_{x}\Delta x_{c}$

即：

$\Delta u = \frac{f_{x}\Delta x_{c}}{z_{c}}$

同理可得：

$\Delta v = \frac{f_{y}\Delta y_{c}}{z_{c}}$

因此，对于相机坐标系下的宽 $\Delta x_{c}$ 、高 $\Delta y_{c}$ 的目标，在像素坐标系下的成像大小和距离 $z_{c}$ 成反比，即满足近大远小。对于同一 $z_{c}$ ，当目标在X和Y方向移动时，其在图像中的大小不变。因此可以使用单帧的CNN网络直接预测 $z_{c}$ 。

随后，结合图像中预测的（u,v）即可计算

$x_{c}=\frac{(u-c_{x})z_{c}}{f_{x}}$ ,

$y_{c}=\frac{(v-c_{y})z_{c}}{f_{y}}$

开发和评测的数据集主要是KITTI，NuSence。目前基于激光或激光与图像前融合的算法对于KITTI上中等难度数据的car类别的mAP~=82.83 %，而基于纯视觉单目3D-OD的mAP只能达到13.41 % .

Deep3Dbox (2017, 3D Bounding Box Estimation Using Deep Learning and Geometry)在回归orientation时做了两个重要创新：第一，为了解决车体系下global orientation固定时，图像上的成像也可以发生较大变化，即global orientation与图像成像不是单映射的问题，论文中选择回归local orientation，即在gloal orientation的基础上减去观察者角度，形成角度与成像的单映射，如下图所示。第二，使用hybrid discrete-continuous loss（即Multibin的方法）预测orientation，性能远优于直接使用L2 loss预测orientation，即对于物理量的值在较大范围（0~360）的问题，直接预测角度误差较大；在Multibin orientation方法中，将一圈分成很多bin，预测角度落在哪个bin，随后回归角度到bin ceter上的offset。（该方法的灵感来自于Faster R-CNN和SSD，在预测bbox的角点位置时，先使用anchor box分成几个discrete modes，随后，预测到anchor box的continous offset。其实，类似地，Yolo中也是将空间分成多个grid，预测目标中心点到grid center的offset。）

CenterNet （2019，Objects as Points）中在预测2D框信息的基础上，直接回归depth，dimension和orientation.

MonoDIS(2019, Disentangling Monocular 3D Object Detection)中，使用两阶段方法，先在第一阶段给出的2D目标框，再基于第一阶段的2D目标框和FPN提取的feature，回归3D框。通过Disentangling Transformation，将需要regress的变量耦合映射到一组物理量上，随后，将需要求解的变量分成多组，分别将一组作为变量、其他组使用真值，通过计算出统一物理量纲的变量，从而消除计算loss时人为引入的不同变量的权重超参，并在loss中实现默认地平衡各个参数的贡献。<