DD3D论文精读

一、前期准备

3D目标检测合集:https://blog.csdn.net/unbekannten/article/details/127989929

Is Pseudo-Lidar needed for Monocular 3D Object detection?
论文地址:https://arxiv.org/abs/2108.06417
代码地址:https://github.com/TRI-ML/dd3d

二、核心思想

深度预训练缩放+检测框微调训练

三、相关方法

暂略

四、本文方法

网络架构

在这里插入图片描述
它扩展了FCOS,以执行3D检测和密集深度预测。由一个主干网和三个子网组成,这些子网在所有多尺度特征中共享。主干以RGB图像为输入,计算不同尺度下的卷积特征,采用特征金字塔网络(FPN)作为主干

4.1 3D检测头

以FPN输出的特征图作为输入,经过4层3x3卷积,对每一个位置预测出12个实数值,分别被解码成3D bounding box(10个值),逐像素深度值(1个),3D预测置信度(1个)。
3D检测头:q=(qw, qx, qy, qz),z{c, q},o=(Δu ,Δv), δ = (δW, δH, δL),β3D
q=(qw, qx, qy, qz)用四元数表示3D边界框朝向,考虑三个角度自由度
zc与 zq表示与深度相关的预测信息,zc表示目标3D边界框中心的Z分量,更像是instance depth,而 zq则是一个逐像素的depth map。其转换公式:
在这里插入图片描述
p可以通过内参计算得到:在这里插入图片描述
学习到的深度不仅仅与图像有关,还与所用到的相机的像素尺寸相关,论文中提到这样设置对于训练的稳定性有帮助。另外,在该设定下,训练时如果对图像执行缩放操作,3D框的GT不需要改变,只需要调整对应的相机内参即可(实际上就是调整每一个像素的尺寸)。
在这里插入图片描述
其中,rx和ry为缩放因子,K为新的相机内参矩阵。
o=(Δu ,Δv)表示的是当前特征位置到3D边界框中心点在相机平面上的投影点的距离,可以理解为当前像素点所对应的目标的3D框中心点投影相对于当前像素点的偏移量。根据该偏移量,可以推断出3D框中心点在图像上的投影坐标 (ub+a1Δu, ub+a1Δv),再根据该坐标和预测出来的3D框中心点深度值dc以及相机内参K,可以反投影出3D框中心点的3D坐标。此处,a1是可学习的尺度因子。

δ = (δW, δH, δH) 表示 3D 边界框的大小与特定类别物体的规范大小的偏差。在实际中,每一类具体的物体的物理尺寸通常变化不大,因此可以通过对每一类的物体预设一个尺度(可以在训练集中计算出每一类物体的平均尺寸),然后在此基础上预测尺寸的偏差即可。

β3D表示 3D 边界框预测的置信度,作用是对评估的结果进行过滤。其转换成概率为:在这里插入图片描述
将该概率与classification head中的类别概率相乘,作为最终的得分对检测结果进行过滤。

五、损失函数

暂略

六、实验实施

暂略

七、相关链接参考

https://zhuanlan.zhihu.com/p/406918022
https://blog.csdn.net/weixin_43543177/article/details/123431334
https://blog.csdn.net/Yong_Qi2015/article/details/121506545

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

unbekannten

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值