MonoDETRNext：下一代准确高效的单目3D检测方法！

最新推荐文章于 2024-07-03 18:19:25 发布

自动驾驶之心

最新推荐文章于 2024-07-03 18:19:25 发布

阅读量74

点赞数

文章标签： 3d 目标跟踪人工智能计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247608550&idx=4&sn=011555796de98a510a812830894fbbc3&chksm=cffda5045eeae41869b353e002798fde4607b9deb0279334f6254547f4065f41d50cb9632975&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『单目3D』技术交流群

论文作者 | 汽车人

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

基于单目视觉的3D目标检测在各个领域都至关重要，但现有方法在准确性和计算效率方面面临着重大挑战。在2D检测和深度估计的成功策略的基础上，本文提出了MonoDETRNext，它寻求在精度和处理速度之间取得最佳平衡。我们的方法包括开发高效的混合视觉编码器，增强深度预测机制，以及引入创新的查询生成策略，并通过高级深度预测器进行增强。在MonoDETR的基础上，MonoDETRNext引入了两种变体：强调速度的MonoDETRNext-F和注重精度的MonoDETRNext-A。我们认为MonoDETRNext为单目3D物体检测建立了一个新的基准，并为未来的研究开辟了道路。我们进行了详尽的评估，证明了该模型相对于现有解决方案的优越性能。值得注意的是，与MonoDETR相比，MonoDETRNext-A在KITTI测试基准上的AP3D指标提高了4.60%，而MonoDETRNext-F提高了2.21%。此外，MonoDETRNext-F的计算效率略高于其前身。

总结来说，本文的主要贡献如下：

提出了两种新的单目3D物体检测模型，即MonoDETRNext-F和MonoDETRNext-A，前者充分平衡了速度和精度，而后者强调了以精度为中心的目标。
构建用于3D目标检测的混合视觉编码器，精通对单目3D目标检测任务至关重要的特征的有效提取，以及集成精细但轻便的深度估计模块，可视化以提高检测精度。
利用迄今为止在2D目标检测范式中根深蒂固的方法，我们提出了一种有说服力的目标查询生成策略，该策略以精心设计的训练策略为基础，旨在有效优化模型性能，以适应单目3D目标检测的需求。

方法

Efficient Hybrid Vision Encoder

根据[36]中的研究结果，可变形DETR将其49%的计算工作量分配给编码器，但该组件仅对平均精度（AP）指标贡献11%。

受RT-DETR架构的启发，我们设计了一种创新的高效混合视觉编码器，专门为3D目标检测任务量身定制。该编码器的特点是减少了计算占用，同时保持了特征提取的效率。如图2所示，我们提出的编码器包括两个集成元件：奇异编码器层和基于CNN的跨尺度特征集成模块（CFIM）。如图3所示，CFIM起着融合单元的作用，将形容词特征融合成新颖的表征。该融合过程如以下公式：

Accurate Depth Predictor

The Sequential Dilated Convolution （SDC）模块，利用膨胀卷积提取多尺度局部特征。与lite-mono类似，我们采用了一种分阶段的方法，通过插入具有不同膨胀率的多个连续膨胀卷积来有效地聚合多尺度上下文。

The Regional-Global Feature Interaction (RGFI)的操作如下：给定输入特征图X，它被线性投影到查询、键和值中。交叉协方差注意力用于增强输入X：

Effective Query Generation and Overall Loss

实验结果

结论和限制

结论：本文介绍了一种新的基于单目视觉的3D目标检测方法。利用2D检测领域的进步，我们提出了高效而精确的MonoDETRNext。在MonoDETR奠定的基础上，我们引入了两种变体：MonoDETRNext-F优先考虑速度，MonoDETRNext-A强调准确性。我们的方法包括开发高效的混合视觉编码器、增强深度预测机制以及改进目标查询生成。通过综合性能评估，我们确定了我们的模型相对于现有方法的优势。通过优化精度和计算效率，MonoDETRNext在单目3D目标检测方面树立了一个新的基准，促进了未来在各种现实世界场景中的研究和应用。

局限性：尽管MonoDETRNext在提高单目3D物体检测的准确性和计算效率方面取得了实质性进展，但仍存在某些局限性。由于单目视觉方法的固有限制，与采用多视图方法或传感器融合技术（如激光雷达与相机的集成）的方法相比，在精度和性能方面仍然存在显著差异。

参考

[1] MonoDETRNext: Next-generation Accurate and Efficient Monocular 3D Object Detection Method

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向，目前近60+技术交流群，欢迎加入！扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

④【自动驾驶之心】全平台矩阵

自动驾驶之心

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MonoDETRNext：下一代准确高效的单目3D检测方法！

点击下方卡片，关注“自动驾驶之心”公众号戳我->领取自动驾驶近15个方向学习路线>>点击进入→自动驾驶之心『单目3D』技术交流群论文作者|汽车人编辑 | 自动驾驶之心写在前面&笔者的个人理解基于单目视觉的3D目标检测在各个领域都至关重要，但现有方法在准确性和计算效率方面面临着重大挑战。在2D检测和深度估计的成功策略的基础上，本文提出了MonoDETRNext，它寻求...
复制链接

扫一扫