Apollo 7.0障碍物感知模型原型，SMOKE 单目3D目标检测，代码开源。

奥比中光3D视觉开发者社区

于 2022-03-17 21:00:00 发布

阅读量5.1k

点赞数 3

分类专栏： 3D视觉文章标签： 3d 目标检测人工智能

本文链接：https://blog.csdn.net/limingmin2020/article/details/123551068

版权

SMOKE是百度Apollo 7.0障碍物感知模型，是一个抛弃2D检测、直接进行3D预测的单目视觉模型。通过关键点预测和3D框回归实现高效3D检测，代码开源。模型包含关键点预测分支和3D边界框回归分支，使用DLA-34主干网络，并应用了可变形卷积和组归一化。实验结果显示SMOKE在3D目标检测和鸟瞰图生成上有良好表现。

摘要由CSDN通过智能技术生成

作者：黎国溥 CSDN博客专家，华为云-云享专家
首发：公众号【3D视觉开发者社区】

前言

SMOKE是一个one-stage的单目视觉障碍物检测模型，它认为2D检测对于单目3D检测任务来说是冗余的，且会引入噪声影响3D检测性能，所以直接用关键点预测和3D框回归的方式。

最近发布的百度Apollo 7.0中，摄像头障碍物感知也是基于这个模型改进的；它能实现实时推理，代码开源，值得学习一下。

在这里插入图片描述
论文名称：SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation
论文地址：https://arxiv.org/pdf/2002.10111.pdf
开源地址：https://github.com/lzccccc/SMOKE
环境搭建：https://guo-pu.blog.csdn.net/article/details/122243245

SMOKE模型的3D目标检测和俯视图效果如图1.1所示。
在这里插入图片描述
图1.1 SMOKE模型效果

一、论文动机

1.1 对于已有的两阶段单目3D目标检测框架：

a、基于2D目标检测网络生成目标的2D候选区域；
b、针对获取到的目标的“2D patch特征” 预测目标位姿；

1.2 SMOKE
a、论文认为其中的2D检测对于单目3D检测任务来说是冗余的，且会引入噪声影响3D检测性能。
b、若已知相机内参和目标的3D属性，反过来是可以推测出目标的2D检测框的；（即：基于3D box在图像平面上的投影点求取满足条件的最小外接矩形。）

本论文抛弃了2D候选区域生成这一步，提出了基于关键点预测的一阶段单目3D检测框架SMOKE(Single-Stage Monocular 3D Object Detection via Keypoint Estimation)，直接预测目标的3D属性信息。

二、单目3D目标检测

针对单张RGB图像，宽度 W、高度 H、通道数 3；
给出其中每个目标的类别标签 C、3D边界框 B；其中B 可以用7个参数表示（h、w、l、x、y、z、θ），如图2.1 所示。需要加水相机的内参矩阵已知。

(h、w、l) 表示目标的高度、宽度和长度；
(x、y、z) 表示目标中心点在相机坐标系下的坐标；
θ 表示目标的航向角。

图2.1 描述3D目标检测框

三、SMOKE 整体框架

输入图像经过DLA-34 Backbone进行特征提取；网络主要包含两个分支：关键点预测分支和3D边界框回归分支，DLA框架结构如图3.1 所示。

SMOKE网络采用关键点预测分支来定位前景目标，关键点分支输出的分辨率为 $\left( \frac{H}{4}, \frac{W}{4},C\right)$ ，表示数据集中前景目标的类别个数。3D边界框回归分支输出的分辨率为 $\left( \frac{H}{4}, \frac{W}{4},8\right)$ ，表示描述3D边界框的参数有8个。
在这里插入图片描述
图3.1 SMOKE框架结构