SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation

最新推荐文章于 2024-08-19 08:04:52 发布

杰读源码

最新推荐文章于 2024-08-19 08:04:52 发布

阅读量606

点赞数

分类专栏：目标检测文章标签：目标检测计算机视觉 3D目标检测

本文链接：https://blog.csdn.net/qq_30483585/article/details/124954023

版权

目标检测专栏收录该内容

2 篇文章

订阅专栏

纵目发表的这篇单目3D目标检测论文不同于以往用2D预选框建立3D信息，而是采取直接回归3D信息，这种思路简单又高效，并不需要复杂的前后处理，而且是一种one stage方法，对于实际业务部署也很友好。

来源：杰读源码微信公众号

论文：SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation

论文:https://arxiv.org/pdf/2002.10111.pdf
代码:https://github.com/open-mmlab/mmdetection3d

Introduction

2D目标检测目前已经在精度和速度上都取得了不错的成绩，而3D目标检测由于需要同时估计出目标的位置与姿态，因此相比2D是一个更具挑战的方向。
目前性能最好的3D目标检测还是需要依赖激光雷达的点云或者点云+图像融合，考虑到成本因素，仅依靠单目摄像头的3D目标检测还是非常值得研究的。
本作有以下几个贡献点:

提出了一个one-stage单目3D检测方法，思路简答，且end-to-end。
3D框8个角点的计算使用了多种方式得到，每种方式都参与了loss的计算，使训练更容易收敛。
在KITTI数据集上达到了SOTA。

Detection Problem

为了方便下面对细节详细展开描述，这里先将3D目标检测概述下:
给定一张RGB图像 $I\in R^{W\times H\times3}$ ， $W$ 和 $H$ 分别代表图像的宽高，需要识别出图像中每个目标的分类 $C$ 以及 $3 D$ 框 $B$ 的信息， $B$ 将由下面7个变量代表 $(h,w,l,x,y,z,\theta)$ ， $(h, w, l)$ 代表目标的高度、宽度、长度单位为 $m$ ， $(x, y, z)$ 是目标的中心坐标，单位为 $m$ ， $\theta$ 代表目标框的航向角 $y a w$ ， $r o w$ 和 $p i t c h$ 这两个角度在KITTI数据集中为0，此外，还假定相机的内参 $K$ 是已知的。

SMOKE Approach

Backbone

主干网络选择使用DLA-34，其中部分卷积换成了DCN，最后的输出相对于原始图4次下采样的特征图。论文还将BN换成了GN(GroupNorm)，因为GN对batch size的大小不那么敏感，且在训练中对噪声更鲁棒。

3D Detection Network

head部分一共两条分支，一条用于检测目标中心点位置同时分类，另一条回归目标的3D信息。

Keypoint Branch

中心点的估计与 $C e n t e r N e t$ 那片论文的思路相似，不同的是 $C e n t e r N e t$ 里用的是2D框的中心点，而这里用的是3D框的中心点在图像上的投影点，如下图所示:

Regression Branch

回归分支在每张热图上预测3D信息，3D信息被编码成 $\tau=[\delta_z,\delta_{x_c},\delta_{y_c},\delta_h,\delta_w,\delta_l,sin\alpha,cos\alpha]^T$ ，其中 $\delta_z$ 为深度补偿值， $\delta_x$ 和 $\delta_y$ 为下采样造成的误差所需的坐标补偿值， $\delta_h$ ， $\delta_w$ ， $\delta_l$ 为尺寸的补偿值， $sin(\alpha)$ 和 $cos(\alpha)$ 为计算航向角所需的值。

深度值 $z$ 由预先定义的缩放系数和补偿值计算得到:

$z=\mu+\delta_z\sigma_z$

得到了深度值 $z$ ，加上下采样中的补偿值 $[\delta_{x_c},\delta_{y_c}]^T$ 和特征图上中心点的投影点 $x_c,y_c]^T$ 以及相机内参的逆矩阵 $K^{-1}_{3*3}$ ，可得目标的3D位置(单位 $m$ ):
$\begin{bmatrix} {x}\\ {y}\\ {z}\\ \end{bmatrix}=K^{-1}_{3\times3}\begin{bmatrix} {z\cdot(x_c+\delta_{x_c})}\\ {z\cdot(y_c+\delta_{y_c})}\\ {z}\\ \end{bmatrix}$

在3D框尺寸的计算前，先分析整个数据集得到得到所有目标的均值 $[\bar{h}]^T$ ，然后使用预测得到的补偿系数 $[\delta_h,\delta_w,\delta_l]$ 即可获取真正的尺寸:
$\begin{bmatrix} {h}\\ {w}\\ {l}\\ \end{bmatrix}=\begin{bmatrix} {\bar{h}\cdot{e^{\delta_h}}}\\ {\bar{w}\cdot{e^{\delta_w}}}\\ {\bar{l}\cdot{e^{\delta_l}}}\\ \end{bmatrix}$

在航向角 $\theta$ 的估计中，论文中采取回归角度 $\alpha_z$ (如下图),来作为计算航向角 $\theta$ :
$\theta=\alpha_z+arctan(\frac{x}{z})$

最终，可得3D框的8个角点:
$B=R_{\theta}\begin{bmatrix} {\pm{h/2}}\\ {\pm{w/2}}\\ {\pm{l/2}}\\ \end{bmatrix}+\begin{bmatrix} {x}\\ {y}\\ {z}\\ \end{bmatrix}$
其中 $R_{\theta}$ 代表航向角 $\theta$ 转变而来的矩阵， $B$ 代表8个角点表示的3D框。

Loss Function

Keypoint Classification分支的loss跟 $C e n t e r N e t$ 中一样，用的是focal loss。

Regression分支的loss计算比较有新意，没有采取直接计算 $\tau$ 中8个参数的loss，而是通过在角度、尺寸、坐标位置三种分支下得到的3D框的8个角点去和真值比较计算loss。

总loss:

$L=L_{cls}+\sum_{i=1}^3L_{reg}(\hat{B}_i)$
其中 $L_{cls}$ 代表中心点的分类loss， $i$ 代表分支， $\hat{B}_i$ 代表预测框的8个角点， $L_{reg}$ 代表角点回归loss。

# mmdetection3d/mmdet3d/models/dense_heads/smoke_mono3d_head.py
# 角度分支下计算得到的3D框，所谓角度分支即只有角度用的是预测值，而坐标位置和尺寸两个用的是真值
bbox3d_yaws = self.bbox_coder.encode(gt_locations, gt_dimensions, orientations, img_metas)
# 尺寸分支下计算得到的3D框
bbox3d_dims = self.bbox_coder.encode(gt_locations, dimensions, gt_orientations, img_metas)
# 坐标位置分支下计算得到的3D框
bbox3d_locs = self.bbox_coder.encode(locations, gt_dimensions, gt_orientations, img_metas)
...
...
# 三种分支下分别计算推理出的8个角点的和真值8个角点的loss
loss_bbox_oris = self.loss_bbox(pred_bboxes['ori'].corners[reg_inds, ...], target_labels['gt_cors'][reg_inds, ...])

loss_bbox_dims = self.loss_bbox(pred_bboxes['dim'].corners[reg_inds, ...], target_labels['gt_cors'][reg_inds, ...])

loss_bbox_locs = self.loss_bbox(pred_bboxes['loc'].corners[reg_inds, ...], target_labels['gt_cors'][reg_inds, ...])

loss_bbox = loss_bbox_dims + loss_bbox_locs + loss_bbox_oris