CNN:目标检测在自动驾驶应用中的应用

一、3D-OD

1.1 Mono-3D

3D-OD在图像上目标检测的基础上,还需要给出相机坐标系或世界坐标系下目标的(x,y,z,h,w,l,theta)。其中,(x,y,z)目标中心点在相机坐标系下的坐标,(l,w,h)是目标的长、宽、高,theta是orientation中的yaw角。其中,(x,y,z)中depth z往往直接回归;x和y一般是预测图像上的像素offset,并通过内参K约束计算而来。

由相机内参投影方程得:

\vec{u}=K*\vec{x_{c}}

即:

\begin{bmatrix} u\\v \\1 \end{bmatrix}z_{c}=\begin{bmatrix} f_{x} & 0 & c_{x} & 0\\ 0 & f_{y} & c_{y} & 0\\ 0 & 0 & 1 & 0\end{bmatrix} \begin{bmatrix}x_{c} \\ y_{c} \\ z_{c} \\1 \end{bmatrix}

uz_{c} = f_{x}x_{c}+c_{x}z_{c}

对于相同距离的两点:

u_{1}z_{c} = f_{x}x_{c1}+c_{x}z_{c}

u_{2}z_{c} = f_{x}x_{c2}+c_{x}z_{c}

以上两式相减得:

\Delta uz_{c} = f_{x}\Delta x_{c}

即:

\Delta u = \frac{f_{x}\Delta x_{c}}{z_{c}}

同理可得:

\Delta v = \frac{f_{y}\Delta y_{c}}{z_{c}}

因此,对于相机坐标系下的宽\Delta x_{c}、高\Delta y_{c}的目标,在像素坐标系下的成像大小和距离z_{c}成反比,即满足近大远小。对于同一z_{c},当目标在X和Y方向移动时,其在图像中的大小不变。因此可以使用单帧的CNN网络直接预测z_{c}

随后,结合图像中预测的(u,v)即可计算

x_{c}=\frac{(u-c_{x})z_{c}}{f_{x}},

y_{c}=\frac{(v-c_{y})z_{c}}{f_{y}}

开发和评测的数据集主要是KITTI,NuSence。目前基于激光或激光与图像前融合的算法对于KITTI上中等难度数据的car类别的mAP~=82.83 %,而基于纯视觉单目3D-OD的mAP只能达到13.41 % .

Deep3Dbox (2017, 3D Bounding Box Estimation Using Deep Learning and Geometry)在回归orientation时做了两个重要创新:第一,为了解决车体系下global orientation固定时,图像上的成像也可以发生较大变化,即global orientation与图像成像不是单映射的问题,论文中选择回归local orientation,即在gloal orientation的基础上减去观察者角度,形成角度与成像的单映射,如下图所示。第二,使用hybrid discrete-continuous loss(即Multibin的方法)预测orientation,性能远优于直接使用L2 loss预测orientation,即对于物理量的值在较大范围(0~360)的问题,直接预测角度误差较大;在Multibin orientation方法中,将一圈分成很多bin,预测角度落在哪个bin,随后回归角度到bin ceter上的offset。(该方法的灵感来自于Faster R-CNN和SSD,在预测bbox的角点位置时,先使用anchor box分成几个discrete modes,随后,预测到anchor box的continous offset。其实,类似地,Yolo中也是将空间分成多个grid,预测目标中心点到grid center的offset。)

CenterNet (2019,Objects as Points)中在预测2D框信息的基础上,直接回归depth,dimension和orientation.

MonoDIS(2019, Disentangling Monocular 3D Object Detection)中,使用两阶段方法,先在第一阶段给出的2D目标框,再基于第一阶段的2D目标框和FPN提取的feature,回归3D框。通过Disentangling Transformation,将需要regress的变量耦合映射到一组物理量上,随后,将需要求解的变量分成多组,分别将一组作为变量、其他组使用真值,通过计算出统一物理量纲的变量,从而消除计算loss时人为引入的不同变量的权重超参,并在loss中实现默认地平衡各个参数的贡献。

SMOKE(2020, Smoke: single-stage monocular 3d object detection via keypoint estimation)中,直接去除了2D框的检测,直接回归所有3D信息,但忽略了截断障碍物的中心点投影到像素坐标系后落在图像边界外的所有目标。

FCOS3D(2021,FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection)使用ancher-free的方法直接预测3D框(不再使用2D框)。

MonoFlexÿ

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yuyuelongfly

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值