转载:点云上实时三维目标检测的欧拉区域方案 ----Complex-YOLO

本文介绍了Complex-YOLO,这是一个基于点云的实时3D物体检测网络,实现了在激光雷达数据上的高效目标检测。通过Euler Region Proposal Network(E-RPN)估计笛卡尔空间中的3D框,解决了单角度估计的奇异性问题,实现了在Nvidia Titan X GPU上超过50fps的帧率,优于现有方法的精度和效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

感觉是机器翻译,好多地方不通顺,凑合看看





原文名称:Complex-YOLO: An Euler-Region-Proposal for  Real-time 3D Object Detection on Point Clouds
原文地址http://www.sohu.com/a/285118205_715754
代码位置https://github.com/Mandylove1993/complex-yolo(值得复现一下)

摘要。基于激光雷达的三维目标检测是自动驾驶的必然选择,因为它直接关系到对环境的理解,从而为预测和运动规划奠定了基础。实时推断高度稀疏的3D数据的能力对于除自动化车辆外的许多其他应用领域(例如增强现实、个人机器人或工业自动化)来说是一个不适的问题。我们介绍了复杂的Yolo,一个仅在点云上的实时3D物体检测网络。在这项工作中,我们描述了一个网络,它通过一个特定的复杂回归策略来估计笛卡尔空间中的多类3d盒子,扩展了一个用于RGB图像的快速二维标准目标探测器yolov2。因此,我们提出一个特定的欧拉区域建议网络(E-RPN),通过在回归网络中添加一个虚分数和一个实分数来估计物体的姿态。这将结束于一个封闭的复杂空间,并避免奇点,这是由单角度估计发生的。E-RPN支持在培训期间很好地概括。我们在Kitti基准套件上的实验表明,在效率方面,我们优于当前领先的3D物体检测方法。我们比最快的竞争者快五倍以上,从而为汽车、行人和骑自行车的人取得了最先进的成绩。此外,我们的模型能够以高精度同时估计所有八个小型货车,包括货车、卡车或坐着的行人。

关键词:三维物体检测、点云处理、激光雷达、自主驾驶

1引言

近年来,随着汽车激光雷达传感器的不断完善,点云处理对汽车自主驾驶越来越重要。供应商的传感器能够实时提供周围环境的三维点。其优点是直接测量被包围物体的距离[1]。这使我们能够开发用于自动驾驶的目标检测算法,在3D[2][3][4][5][6][7][8][9]中准确估计不同目标的位置和方向。与图像相比,激光雷达点云稀疏,密度分布在整个测量区域。这些点是无序的,它们在本地相互作用,主要不能孤立地进行分析。点云处理应该始终对基本转换保持不变[10][11]。

通用对象的检测和分类,基于深学习是众所周知的广泛的任务和既定的在线回归2D bounding盒for Images〔12〕〔13〕〔14〕〔15〕〔16〕〔17〕〔18〕〔19〕〔20〕〔21〕。研究的主要焦点是在tradeoff between精度和效率。在自动驾驶的效率下,更多的是多的重要。therefore对象探测器,最好是使用一个区域网络(rpn)〔3〕〔22〕〔15〕或相似的基于网格的方法rpn - [ 13 ]。这些网络是非常准确和高效,甚至capable of running on a dedicated嵌入式硬件或设备。对象的点云detections仍然是在线和黑莓黑莓rarely,but important。这些应用可以预测capable need to be of 3D bounding盒。当前,there exist主要使用三不同深的学习方法:[ 3 ]
1。直接利用点云处理多层感知器层〔5〕〔10〕〔11〕〔23〕〔24〕
2。translation of点云图像像素或在堆叠模式使用卷积神经网络(CNN)〔2〕〔3〕〔4〕〔6〕〔8〕〔9〕〔25〕〔26〕
3。联合融合的方法〔2〕〔7〕

1.1相关工作

最近,基于截锥体的网络[5]在Kitti基准套件上显示出高性能。该模型被列为第二位,用于三维物体检测,如基于汽车、行人和骑自行车的鸟瞰图检测。这是唯一的方法,它直接使用点网络[10]处理点云,而不在激光雷达数据和体素创建上使用CNN。然而,它需要一个预处理,因此它也必须使用摄像机传感器。基于另一个CNN处理校准后的摄像机图像,它使用这些检测将全局点云最小化为基于截锥体的还原点云。这种方法有两个缺点:i)。模型的准确性很大程度上取决于摄像机图像及其相关的CNN。因此,仅对激光雷达数据应用该方法是不可能的;ii)。整个管道必须连续运行两个深度学习方法,最终导致更高的推理时间和更低的效率。参考模型在Nvidia GTX 1080i GPU上以约7fps的帧速率运行[1]。

相比之下,周等人[3]提出了一种仅在激光雷达数据上运行的模型。在这方面,它是kitti的最佳排名模型,用于仅使用激光雷达数据的3D和鸟类视力检测。基本思想是一种端到端的学习,它在网格单元上运行,而不使用手工制作的特性。在使用点网方法进行培训期间,将学习网格单元内部的特性[10]。最重要的是建立一个CNN来预测3D边界框。尽管精度很高,但该模型在TitanxGPU上的推断时间却很短,为4fps[3]。

Chen等人报道了另一种高排名方法。〔5〕。其基本思想是使用手工制作的特征,如点密度、最大高度和代表性点强度,将激光雷达点云投影到基于体素的RGB地图中[9]。为了获得高精度的结果,他们使用基于激光雷达鸟瞰图、基于激光雷达的前视图图和基于相机的前视图图像的多视图方法。这种融合最终导致处理时间很长,Nvidia GTX 1080i GPU上只有4fps。另一个缺点是需要辅助传感器输入(摄像头)。

1.2贡献

令我们惊讶的是,到目前为止,还没有人能够在自动驾驶方面实现实时效率。因此,我们引入了第一个超薄和准确的模型,能够在Nvidia Titanx GPU上运行速度超过50fps。我们使用多视图思想(MV3D)[5]进行点云预处理

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值