DD3D论文精读

最新推荐文章于 2024-09-12 19:18:03 发布

unbekannten

最新推荐文章于 2024-09-12 19:18:03 发布

阅读量737

点赞数

分类专栏： 3D目标检测文章标签： 3d 计算机视觉深度学习

本文链接：https://blog.csdn.net/unbekannten/article/details/128127259

版权

3D目标检测专栏收录该内容

11 篇文章 2 订阅

订阅专栏

一、前期准备

3D目标检测合集：https://blog.csdn.net/unbekannten/article/details/127989929

Is Pseudo-Lidar needed for Monocular 3D Object detection?
论文地址：https://arxiv.org/abs/2108.06417
代码地址：https://github.com/TRI-ML/dd3d

二、核心思想

深度预训练缩放+检测框微调训练

三、相关方法

暂略

四、本文方法

网络架构

在这里插入图片描述
它扩展了FCOS，以执行3D检测和密集深度预测。由一个主干网和三个子网组成，这些子网在所有多尺度特征中共享。主干以RGB图像为输入，计算不同尺度下的卷积特征，采用特征金字塔网络（FPN）作为主干

4.1 3D检测头

以FPN输出的特征图作为输入，经过4层3x3卷积，对每一个位置预测出12个实数值，分别被解码成3D bounding box(10个值)，逐像素深度值(1个)，3D预测置信度(1个)。
3D检测头：q=(qw, qx, qy, qz)，z{c, q}，o=(Δu ,Δv), δ = (δW, δH, δL),β3D
q=(qw, qx, qy, qz)用四元数表示3D边界框朝向，考虑三个角度自由度
zc与 zq表示与深度相关的预测信息，zc表示目标3D边界框中心的Z分量，更像是instance depth，而 zq则是一个逐像素的depth map。其转换公式：
在这里插入图片描述
p可以通过内参计算得到：
学习到的深度不仅仅与图像有关，还与所用到的相机的像素尺寸相关，论文中提到这样设置对于训练的稳定性有帮助。另外，在该设定下，训练时如果对图像执行缩放操作，3D框的GT不需要改变，只需要调整对应的相机内参即可(实际上就是调整每一个像素的尺寸)。
在这里插入图片描述
其中，rx和ry为缩放因子，K为新的相机内参矩阵。
o=(Δu ,Δv)表示的是当前特征位置到3D边界框中心点在相机平面上的投影点的距离，可以理解为当前像素点所对应的目标的3D框中心点投影相对于当前像素点的偏移量。根据该偏移量，可以推断出3D框中心点在图像上的投影坐标 (ub+a1Δu, ub+a1Δv)，再根据该坐标和预测出来的3D框中心点深度值dc以及相机内参K，可以反投影出3D框中心点的3D坐标。此处，a1是可学习的尺度因子。

δ = (δW, δH, δH) 表示 3D 边界框的大小与特定类别物体的规范大小的偏差。在实际中，每一类具体的物体的物理尺寸通常变化不大，因此可以通过对每一类的物体预设一个尺度（可以在训练集中计算出每一类物体的平均尺寸），然后在此基础上预测尺寸的偏差即可。

β3D表示 3D 边界框预测的置信度，作用是对评估的结果进行过滤。其转换成概率为：在这里插入图片描述
将该概率与classification head中的类别概率相乘，作为最终的得分对检测结果进行过滤。

五、损失函数

暂略

六、实验实施

暂略

七、相关链接参考

https://zhuanlan.zhihu.com/p/406918022
https://blog.csdn.net/weixin_43543177/article/details/123431334
https://blog.csdn.net/Yong_Qi2015/article/details/121506545