【3D目标检测】WEAKM3D: TOWARDS WEAKLY SUPERVISEDMONOCULAR 3D OBJECT DETECTION

概述

【2022】【WEAKM3D】
研究的问题:

  • 核心问题:如何以2D检测框对应的目标点云作为监督信号进行弱监督学习,训练一个单目3D目标检测网络
  • 模型产生预测框之后,如何设计损失衡量预测边界框与目标点云之间的距离。
  • 如何从点云中获取相关参数的监督信号

解决的方法:

  • 基于点密度的点级损失平衡,包括几何目标点云对齐损失以及射线追踪损失
  • 给出了位置、偏航角和尺寸的监督信号设计方案。

细节

背景

3D目标检测的标注就是3D边界框,它是从点云出发得到的,但是得到的过程非常耗时且昂贵。因此,如果能直接用点云进行单目3D目标检测网络的训练,会大大降低成本。
标注的变化:一个目标原先的标注是3D边界框,作者提出的弱监督学习方案中的标注是2D检测框对应的目标点云。
训练目标的变化: 原先训练的目标是模型预测的7个参数和标注3D边界框对应的7个参数尽可能的接近,产生的3D边界框和标注的3D边界框尽可能的一致作者方案下的训练目标是模型预测的7个参数和从点云中获取的7个参数尽可能的接近,产生的3D边界框尽可能的贴合目标点云。
最大的问题:

  • 模型产生预测框之后,如何设计损失衡量预测边界框与目标点云之间的距离。
  • 如何从点云中获取相关参数的监督信号

算法流程

推理阶段:

  • 一个3D特征提取器提取特征

  • 一个2D检测器检测2D边界框

  • 获取2D边界框对应的特征

  • 回归3D边界框的相关参数
    在这里插入图片描述
    训练阶段:

  • 使用RANSAC算法去除原始点云中的接地点

  • 将点云投影到图像坐标系下,获取2D边界框中的点云(包含目标点云以及一些背景点云)

  • 用一个无监督的目标聚类算法得到目标点云

  • 计算预测边界框与目标点云之间的损失

最终损失

损失是在鸟瞰图上逐点计算的,主要包含三部分:一是平衡损失,二是位置预测损失,三是偏航角的损失,二是这样:计算目标点云的平均纵坐标Y作为目标的Y坐标监督信号(不需要x吗?),是为了进一步提高位置的预测。
在这里插入图片描述
后面是论文的主体,就是这个平衡损失怎么来,平衡损失其实描述了核心任务,就是3D边界框的位置和尺寸,第二个损失作者一句话带过,就是为了进一步提高位置的预测,第三个损失就是3D边界框的最后一部分:偏航角。

几何目标点云对齐损失

目标:预测的3D边界框应该包含目标点云并且与目标点云的边缘对齐
最朴素的想法就是最小化边界框中心点到每个点的欧式距离,但这并不合理,因为这会让网络将点云的中心作为3D边界框的中心,而点云是从目标的表面获取的,这样会让预测边界框的中心趋向于真实边界框的边缘。
具体例子如下:预测产生的边界框与真实边界框差距很大
在这里插入图片描述

作者的想法:发出一条从3D边界框的中心 P 3 d P_{3d} P3d到目标点云 P P P的射线,交3D边界框的边缘 P I P_I PI,然后最小化 P P P P I P_I PI之间的距离
在这里插入图片描述
在这里插入图片描述
作者没有直接预测3D边界框的中心点坐标,而是预测其在图像坐标系下的投影以及对应的深度z,然后组合成中心点坐标。

射线追踪损失

对齐模糊问题:目标点云无法表示出目标的3D轮廓,难以对齐。例子就是:获得的目标点云只有一个表面的点,不知道该通过3D边界框的哪个表面去和他对齐。
具体例子如下:这两个边界框具有相同的几何对齐损失,但是3D位置大不相同,我们不确定到底哪个边界框是更好的预测
在这里插入图片描述

目标:上面一个损失只考虑了几何信息,这个损失考虑一些语义上的因素
作者考虑到遮挡约束,发出一条从相机光心 P c a r m P_{carm} Pcarm到目标点云 P P P的射线,交3D边界框的边缘 P R P_R PR,然后最小化 P P P P R P_R PR之间的距离,如果 P R P_R PR有多个,我们只取其中与相机光心最接近的一个点;若没有交点,则不计算损失。
在这里插入图片描述
在这里插入图片描述

基于点密度的点级损失平衡

背景:点云分布是不均匀的,也就是有些地方点密度大,有些地方点密度小,这就会导致点密度大的区域贡献更大的损失而点密度小的区域贡献更少损失,因此需要考虑点密度进行损失平衡。
具体做法:先计算点密度,然后基于点密度平衡损失

计算点密度:
在这里插入图片描述
基于点密度平衡损失
在这里插入图片描述
示意图
在这里插入图片描述

边界框参数预测的解耦

我的理解是以往采用3D边界框标注的时候,可以通过每组预测和相应的标签之间添加损失实现对边界框参数预测的解耦。
我理解的解耦指的是:各个部分参数预测对整个任务的贡献,比如位置预测提升是否能带来评价指标的提升,以及能提升多少。

方向:目标点云是目标的部分3D轮廓,隐式指出目标的方向。作者通过目标点对的方向获得目标的方向,具体做法就是计算每个目标点对的方向,然后绘制直方图,直方图中最主要的方向就是目标方向,也就是方向的监督信号。
在这里插入图片描述

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Faster R-CNN是一种基于区域建议网络(Region Proposal Networks,RPN)的物体检测算法,旨在实现实时物体检测。它通过预测每个区域是否含有物体来生成候选框,并使用卷积神经网络(CNN)来确定候选框中的物体类别。Faster R-CNN在提高检测精度的同时,也显著提高了检测速度。 ### 回答2: 在计算机视觉领域中,目标检测一直是热门研究的方向之一。近年来,基于深度学习的目标检测方法已经取得了显著的进展,并且在许多实际应用中得到了广泛的应用。其中,Faster R-CNN 是一种基于区域建议网络(Region Proposal Networks,RPN)的目标检测方法,在检测准确率和速度之间取得了很好的平衡,能够实现实时目标检测。 Faster R-CNN 的基本框架由两个模块组成:区域建议网络(RPN)和检测模块。RPN 主要负责生成候选目标框,而检测模块则利用这些候选框完成目标检测任务。具体来说,RPN 首先在原始图像上以多个尺度的滑动窗口为基础,使用卷积网络获取特征图。然后,在特征图上应用一个小型网络来预测每个位置是否存在目标,以及每个位置的目标边界框的坐标偏移量。最终,RPN 根据预测得分和位置偏移量来选择一部分具有潜在对象的区域,然后将这些区域作为候选框送入检测模块。 检测模块的主要任务是使用候选框来检测图像中的目标类别和位置。具体来说,该模块首先通过将每个候选框映射回原始图像并使用 RoI Pooling 算法来获取固定大小的特征向量。然后,使用全连接神经网络对这些特征向量进行分类和回归,以获得每个框的目标类别和精确位置。 相比于传统的目标检测方法,Faster R-CNN 具有以下优点:首先,通过使用 RPN 可以自动生成候选框,避免了手动设计和选择的过程;其次,通过共享卷积网络可以大大减少计算量,提高效率;最后,Faster R-CNN 在准确率和速度之间取得了很好的平衡,可以实现实时目标检测。 总之,Faster R-CNN 是一种高效、准确的目标检测方法,是深度学习在计算机视觉领域中的重要应用之一。在未来,随着计算机视觉技术的进一步发展,Faster R-CNN 这类基于深度学习的目标检测方法将会得到更广泛的应用。 ### 回答3: Faster R-CNN是一种结合了深度学习和传统目标检测算法的新型目标检测方法,旨在提高目标检测速度和准确率。Faster R-CNN采用了Region Proposal Network(RPN)来生成候选区域,并通过R-CNN网络对候选区域进行分类和定位。 RPN是一种全卷积神经网络,用于在图像中生成潜在的候选区域。RPN通常在卷积特征图上滑动,对每个位置预测k个候选区域和其对应的置信度得分。这样,对于输入图像,在不同大小和宽高比的Anchor上预测候选框,可以在计算上更有效率。 R-CNN网络利用卷积特征图作为输入,对RPN生成的候选区域进行分类和精确定位。与以前的目标检测方法相比,Faster R-CNN使用了共享卷积特征,使得整个检测网络可以端到端地进行训练和优化,缩短了训练时间,同时也更便于理解和改进。 Faster R-CNN不仅具有较高的准确性,还具有较快的检测速度。在各种基准测试中,Faster R-CNN与其他目标检测算法相比,都取得了优异的性能表现。总之,Faster R-CNN将目标检测引入了一个新的阶段,为实时目标检测提供了一个良好的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值