多视图3D目标检测学习笔记

参加滴滴无人驾驶算法大赛,在多方面参考了几篇目标检测和多视角检测融合等文献,最终团队确定了一下两篇论文作为比赛的参考:

A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

Multi-View 3D Object Detection Network for Autonomous Driving 

多尺度CNN在R-CNN中一直是研究的重点,这也是目前在不考虑运行时间的情况下准确率较高的改进模型。这次比赛由于不考虑实时性,所以在模型上主要以准确率为主,在两者中进行均衡的网络并不会作为基础模型,其中的tips可以作为后续的优化方案。

在Multi-View的研究上,本人是最近因为比赛才从2D目标检测转到3D目标检测上,所以内容以3D目标检测为主作为介绍。

这篇论文主要针对自主驾驶场景中的高精度三维目标检测。文章提出了多视图三维网络(mv3d),一个以激光点云与RGB图像作为输入去预测定向的三维bounding box的融合框架。论文编码稀疏的三维点云数据用紧凑的多视图表示。网络是由两个子网络组成:一个是三维目标区域提名网络,另一个用于多视图特征融合。区域提名网络从鸟瞰视图中生成有效地3D点云数据表示的3D侯选框。文章设计了一个深度融合方案,结合多视角的区域特征,并能够作用于不同路径的中间层之间。采用KITTI基准作为实验测试,测试表明,这个方法在三维定位任务、三维检测任务上优于目前最先进记录大约25%和30%的准确率。此外,对于2D检测,在激光雷达为基础的难例数据上,该方法比目前最领先的方法获得14.9%更高的准确率。

在文章中,提出了一个以多模态数据作为输入的多视图三维物体检测网络(mv3d),预测物体在三维空间中的全3D的程度。利用多模态信息的主要思想是完成区域特征融合。首先,文章提出了一个多视图的编码方案,以获得对稀疏3D点云更有效和紧凑的表达。如图1所示,多视图三维检测网络由两部分组成:三维区域提名网络和基于区域提名的融合网络。3D区域提名网络利用鸟瞰视角的点云表示去产生高度精确的3D候选框。3D物体区域提名的好处是,它可以在3D空间中被投影到任何视图中。多视图融合网络从多视角中通过投影3D区域来提取域特征到特征图上。我们设计了一个深度融合的方法能够作用于不同视角的中间层。结合下降路径训练[ 13 ]和辅助损失,该方法相比于早期/晚期融合方案表现出优异的成绩。根据多视图特征表示,在三维空间中,网络执行定向的3D框回归来预测物体准确的三维位置,大小和方向。


  • 3
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 19
    评论
视图3D目标检测是一种基于多个视角的技术,旨在通过使用多个摄像头或传感器来获取目标的三维信息。与传统的单视角2D目标检测不同,多视图3D目标检测可以提供更准确、全面和准确的目标检测结果。 首先,多视图3D目标检测利用多个视角的图像或传感器数据,提供更多的几何信息。通过分析不同视角下的目标外观和位置信息,可以建立目标的三维模型,并计算其精确的位置、大小和形状。这种综合多个视角的方法使得目标检测结果更加准确且具有更高的空间分辨率。 其次,多视图3D目标检测可以解决传统单视角2D目标检测中的遮挡问题。当目标部分被遮挡或者被其他物体遮挡时,传统的2D目标检测往往无法准确检测出目标。而多视图3D目标检测技术可以通过综合多个视角的信息,克服目标的遮挡问题,实现对完整目标的准确检测。 此外,多视图3D目标检测还可以实现对目标的三维跟踪和姿态估计。通过不同视角下的目标检测结果,可以实现对目标在空间中的准确追踪,提供目标的轨迹信息。同时,通过分析目标在不同视角下的形态变化,可以估计目标的姿态,包括旋转和倾斜等。 总之,多视图3D目标检测技术通过综合多个视角的信息,在目标检测、遮挡问题解决、目标跟踪和姿态估计等方面具有明显的优势。在机器人导航、无人驾驶、智能监控等领域具有广阔的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值