【论文解读】单目3D目标检测 MonoDLE（CVPR2021）

一颗小树x

已于 2023-10-13 08:41:17 修改

阅读量2.7k

点赞数 6

分类专栏：单目3D目标检测文章标签： 3d 目标检测单目3D目标检测 MonoDLE 论文解读

于 2023-10-13 01:16:35 首次发布

本文链接：https://blog.csdn.net/qq_41204464/article/details/133800532

版权

单目3D目标检测专栏收录该内容

16 篇文章

订阅专栏

MonoDLE通过优化中心点偏差和尺寸估计，结合单目3D检测方法，提升了模型在远距离目标上的性能。研究了2D与3D框投影中心的差异，并提出处理远距离样本的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文分享单目3D目标检测，MonoDLE模型的论文解读，了解它的设计思路，论文核心观点，模型结构，以及效果和性能。

一、MonoDLE简介

MonoDLE作为一个延续CenterNet框架的单目3d检测器，在不依赖dcn的情况下获得了较好的性能，可以作为baseline。

MonoDLE和SMOKE有些像，都是单目实现3D目标检测，通过几何约束和回归3D框信息，得到3D框的中心点、尺寸、朝向，但是它反驳了SMOKE提出的2D检测对3D检测没有帮助的论点。

开源地址：https://github.com/xinzhuma/monodle

论文地址：【CVPR2021】Delving into Localization Errors for Monocular 3D Object Detection

二、论文核心观点

论文核心观点，主要包括为三点：

2d box中心点与投影下来的3d box中心点，存在不可忽视的差异，优先使用3d box投影下来的中心点。
较远目标，会带偏模型训练；在训练时，可以过滤这些过远的物体标签。
提出了一种面向 3D IoU 的损失，用于对象的大小估计，不受“定位误差”的影响。

三、模型框架

MonoDLE是基于CenterNet框架，实现单目3d检测的。模型结构如下：

Backbone：DLA34

Neck：DLAUp

2D 框检测：3个分支

分支一通过输出heatmap，预测2D框中心点的粗略坐标，以及类别分数。（CenterNet用的是标签中2D框中心作为GT值来监督，MonoDLE采用了3D投影坐标作为粗坐标的监督）
分支二预测的2D框中心点粗坐标与真实坐标之间的偏移。
分支三预测2D框的size。

3D Detection：4个分支

分支一预测2D框中心点粗坐标的深度值。
分支二预测2D框中心点粗坐标与真实的3D投影坐标之间的偏移。
分支三预测3D框的size。
分支四预测偏航角。

模型结构如下图所示：

四、模型预测信息与3D框联系

3D框相关的信息

1、3D中心点坐标（cw, yw, zw）：通过预测3D中心在像素坐标系下的坐标，结合相机内参可以获得中心点在图像物理坐标系下的坐标（x,y,z）。再结合预测深度zw，获得zw/z的比例系数，就能求出xw，yw。由此可见，深度估计对整体定位精度的影响还是很大的。

2、深度估计：基于端到端的思路实现；同时在输出上做了一个不确定性建模，在预测深度d的基础上同时预测标准差σ。对于σ的分布，文中做了拉普拉斯分布和高斯分布，起到一定优化作用。

3、尺寸估计：以往的尺寸估计，应用的损失函数都是通过计算和真值框之间的交并比来约束尺寸。这样带来的问题就是，由于中心点的预测误差导致的损失偏大，会给尺寸估计带来不必要的负担。所以作者提出了尺寸估计并专门设计了损失函数，只针对尺寸的预测误差对这个分支进行优化。并且根据长宽高对于IOU影响的比例不同，对参数优化的权重也按比例进行了设置。

4、航向角估计：用的是multi-bin loss。

模型预测信息，如下图所示：

五、损失函数

MonoDLE的损失由7部分组成，

分类损失：Focal Loss
2D 中心点损失：L1 Loss
2D size损失：L1 Loss
3D 深度估计损失：
3D 中心点损失：L1 Loss
3D heading angle：multi-bin Loss
3D size：普通的L1 Loss & MonoDLE提出的 IoU Loss

六、核心内容——3D框中心点偏差分析

作者做了实验，分析3D框中心点偏差，以CenterNet作为baseline ，它是使用2D框的中心点，作为3D框在图像中的坐标，进行指导训练。AP只有9.97。

当使用3D投影坐标作为图像中坐标的监督时，AP有16.54。
当把模型预测的深度值，替换为真实的深度，AP有35.11。
当把模型输出的3D中心坐标，替换为激光雷达的真实3D中心坐标，AP有72.36。

由此可以知道影响单目相机做3D目标检测的主要原因：深度、3D中心点偏差。同时使用3D投影的中心坐标，有助于估计粗略的中心感知 3D 几何信息，提高模型精度。

由此分析问题得到的结论:

2D框中心与3D对象的投影中心之间的偏差，证实了保持2D检测相关分支的必要性，通过这种方式，2D 检测被用作相关的辅助任务来帮助学习与 3D 检测共享的特征，这与SMOKE中丢弃 2D 检测的现有工作不同。
观察到检测精度随着距离的增加而显著下降，认为由于不可避免的定位错误，几乎不可能使用现有技术准确地检测远距离对象，为此，提出了两种方案：从训练集中去除远距离样本，以及降低了这些样本的训练损失权重。
以往的尺寸估计，应用的损失函数都是通过计算和真值框之间的交并比来约束尺寸。这样带来的问题就是，由于中心点的预测误差导致的损失偏大，会给尺寸估计带来不必要的负担。所以作者提出了尺寸估计并专门设计了损失函数，只针对尺寸的预测误差对这个分支进行优化。并且根据长宽高对于IOU影响的比例不同，对参数优化的权重也按比例进行了设置。

下面进一步分析：2D框中心与3D框的投影中心之间的偏差