FCOS3D论文笔记

高分锻炼队友

已于 2023-06-27 11:38:36 修改

阅读量454

点赞数

文章标签： 3d 论文阅读深度学习

于 2023-06-11 19:44:51 首次发布

本文链接：https://blog.csdn.net/qq_44820499/article/details/131150761

版权

3d目标检测论文笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

FCOS3D是一种基于FCOS设计的单阶段3D物体检测器，不依赖深度图。它将3D检测转化为2D图像坐标系的问题，通过解耦2D和3D属性并使用二维高斯分布定义中心度来提高准确性。网络使用ResNet-101和可变形卷积，预测包括3D中心、大小、朝向等参数，并利用中心度进行预测框的抑制。

摘要由CSDN通过智能技术生成

论文链接：FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection
所属任务：单目3D检测（不预测深度图）

1 引言

FCOS3D是基于FCOS进行设计，FCOS 论文笔记链接。
在这里插入图片描述

图1
图1说明了2D和3D anchor-free单目检测的区别，2D检测预测边界框四边到物体中心的距离，3D检测预测3D中心的投影、3D物体大小以及朝向。

FCOS3D 提出了一种单阶段目标检测器，首先将通常定义的7-DoF（物体中心坐标、长宽高、方向角）3D目标转换到2D的图像坐标系，并将其解耦为2D和3D属性。然后根据尺寸大小将其分配到不同的特征层，并根据训练过程中投影的3d中心匹配正样本。此外，在三维中心的基础上，用二维高斯分布重新定义中心度用于降低离物体中心远的预测框的置信度，从而在NMS中将其抑制，提高准确率。

2 方法

2.1 网络结构

网络结构如图1所示。
网络结构图

图2. FCOS3D 网络结构

2.1.1 框架

Backbone：ResNet-101 + deformable convolution
Neck：FPN
Head：如图2。

2.1.2 模型预测参数

正样本定义：将特征图上的点映射回2d原图，3d物体中心投影到2d图像，当前者在后者附近时，特征图上该点才为正样本。
角度编码

图3. 角度编码

回归分支：

不同于2D预测框的4条边与物体中心点之间的距离，3D的预测参数如下：
回归的参数： $\Delta x,\Delta y,d,w,l,h,\theta,v_x,v_y$ ，方向类别 $C_\theta$ ，center-ness $c$

$\Delta x,\Delta y,h$ ：对于特征图上的正样本点，预测与3D物体中心投影的偏移量，同时预测该点深度
角度编码为两部分 $\theta,C_\theta$ ，分别是以 $\pi$ 为周期的角 $\theta$ ，和一个二分类标签。
角度编码如图3所示，两个方向相反的航向角（图2右图是 $\theta$ 上面的钝角）， $|sin(\theta-\hat \theta)|$ 相同（ $\hat \theta$ 是真实值），所以用 $C_\theta$ 预测是0-180°还是180-360°。
通过预测中心度center-ness判断哪些点更靠近中心，用于抑制远离中心的低质量预测框，具体见2.3节。

回归分支的每个输出参数 $x$ 换成 $s_ix$ ， $s_i$ 是一个可学习参数，对应于第 $i$ 个特征层，因为不同特征层预测的目标大小不同又共享head权重参数，所以添加参数用于区分。

分类分支：

预测类别和属性（如静止还是运动）。

2.1.3 损失函数

分类损失：

类别预测损失 $L_{cls}$ 使用 focal loss，属性预测损失 $L_{attr}$ 使用 softmax 分类损失。
$L_{cls}=-\alpha(1-p)^\gamma logp$
其中 $p$ 是预测框的类别概率

回归损失：

$L_{loc}=\sum_{b\in (\Delta x,\Delta y,d,w,l,h,\theta,v_x,v_y)}SmoothL1(\Delta b)$
其中 $\Delta x,\Delta y,w,l,h,\theta$ 的权重是1， $d$ 的权重是0.2， $v_x,v_y$ 的权重是0.05。

总损失：

$\frac{1}{N_{pos}}(\beta_{cls}L_{cls}+\beta_{attr}L_{attr}+\beta_{loc}L_{loc}+\beta_{dir}L_{dir}+\beta_{ct}L_{ct})$
$N_{pos}$ 是预测的正样本数，论文中把所有系数 $\beta$ 都设为1。

2.1.4 推理

推理时，输入一张图片，前向传播预测边界框及其对应的类别分数、属性分数、中心度，然后把类别分数和中心度相乘作为置信度，再在鸟瞰图视角使用NMS。

2.2 2D 指导的多尺度 3D 预测

2.2.1 标签分配

FCOS3D还要用FCOS进行2D检测，预测的2D中心用于计算3D中心投影，预测的四条边与中心的距离用于每个特征图的正样本分配。为每个特征图分配标签和定义正样本的规则与 FCOS 一致，见 FCOS 论文笔记 2.2节。为每个特征图设定回归长度的范围，在范围内的才是正样本，不在范围内的为负样本，由其它特征图负责预测，这使得不同分辨率的特征图负责不同尺度的物体。
但是为一个特征图里的每个点定义正样本的规则不同：FCOS3D 定义了一个超参数radius，当距离小于 $radius\times stride$ 时才是正样本（更严格），论文把radius设为1.5。

2.2.2 歧义样本标签分配

问题：当特征图上的一个点落在多个 gt box 里面时，应该为它分配哪个 gt box？不采用 FCOS 里选择小面积的方法，因为会更少关注大物体。FCOS3D 选择离得最近的gt box中心所在gt box作为目标。

2.3 3D 中心度计算

用以3D物体投影的中心为原点的二维高斯分布度量距离，作用与FCOS中相同，用于降低离3D物体中心远的预测框的置信度，从而在NMS中过滤。
$c=e^{-\alpha((\Delta x)^2+(\Delta y)^2)}$
其中超参数 $\alpha$ 用于调节从中心到外围的衰减强度，论文中设为2.5。中心度的取值范围是0到1，所以用 BCE 损失。