一、3D-OD
1.1 Mono-3D
3D-OD在图像上目标检测的基础上,还需要给出相机坐标系或世界坐标系下目标的(x,y,z,h,w,l,theta)。其中,(x,y,z)目标中心点在相机坐标系下的坐标,(l,w,h)是目标的长、宽、高,theta是orientation中的yaw角。其中,(x,y,z)中depth z往往直接回归;x和y一般是预测图像上的像素offset,并通过内参K约束计算而来。
由相机内参投影方程得:
,
即:
,
,
对于相同距离的两点:
,
,
以上两式相减得:
即:
同理可得:
因此,对于相机坐标系下的宽、高的目标,在像素坐标系下的成像大小和距离成反比,即满足近大远小。对于同一,当目标在X和Y方向移动时,其在图像中的大小不变。因此可以使用单帧的CNN网络直接预测。
随后,结合图像中预测的(u,v)即可计算
,
开发和评测的数据集主要是KITTI,NuSence。目前基于激光或激光与图像前融合的算法对于KITTI上中等难度数据的car类别的mAP~=82.83 %,而基于纯视觉单目3D-OD的mAP只能达到13.41 % .
Deep3Dbox (2017, 3D Bounding Box Estimation Using Deep Learning and Geometry)在回归orientation时做了两个重要创新:第一,为了解决车体系下global orientation固定时,图像上的成像也可以发生较大变化,即global orientation与图像成像不是单映射的问题,论文中选择回归local orientation,即在gloal orientation的基础上减去观察者角度,形成角度与成像的单映射,如下图所示。第二,使用hybrid discrete-continuous loss(即Multibin的方法)预测orientation,性能远优于直接使用L2 loss预测orientation,即对于物理量的值在较大范围(0~360)的问题,直接预测角度误差较大;在Multibin orientation方法中,将一圈分成很多bin,预测角度落在哪个bin,随后回归角度到bin ceter上的offset。(该方法的灵感来自于Faster R-CNN和SSD,在预测bbox的角点位置时,先使用anchor box分成几个discrete modes,随后,预测到anchor box的continous offset。其实,类似地,Yolo中也是将空间分成多个grid,预测目标中心点到grid center的offset。)
CenterNet (2019,Objects as Points)中在预测2D框信息的基础上,直接回归depth,dimension和orientation.
MonoDIS(2019, Disentangling Monocular 3D Object Detection)中,使用两阶段方法,先在第一阶段给出的2D目标框,再基于第一阶段的2D目标框和FPN提取的feature,回归3D框。通过Disentangling Transformation,将需要regress的变量耦合映射到一组物理量上,随后,将需要求解的变量分成多组,分别将一组作为变量、其他组使用真值,通过计算出统一物理量纲的变量,从而消除计算loss时人为引入的不同变量的权重超参,并在loss中实现默认地平衡各个参数的贡献。<