Object as Query:将任何2D目标检测器提升到3D检测(图森最新)

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

>>点击进入→自动驾驶之心【3D目标检测】技术交流群  

原标题:Object as Query: Lifting any 2D Object Detector to 3D Detection

论文链接:https://arxiv.org/pdf/2301.02364.pdf

作者单位:北京航空航天大学 图森

5566a09e98197c5385d21816a28bd8e0.png

论文思路:

多视图下的3D目标检测在过去几年引起了广泛的注意力。现有的方法主要是从多视图图像中建立三维表示,采用密集检测头进行目标检测,或者利用分布在三维空间中的目标查询对目标进行定位。本文设计了一种基于多视图的二维目标引导的三维目标检测器(MV2D),它可以将任意二维目标检测器提升到多视图3D目标检测。由于2D检测可以为目标的存在提供有价值的先验,因此MV2D利用2D检测器生成基于丰富图像语义的目标查询。这些动态生成的查询帮助MV2D回忆视野中的目标,并显示出强大的定位3D目标的能力。对于生成的查询,本文设计了一个稀疏的交叉注意力模块,使其集中于特定目标的特征上,从而抑制了噪声的干扰。对nuScenes数据集的验证结果表明,动态目标查询和稀疏特征聚合能够提高三维检测能力。MV2D在现有方法中也表现出最先进的性能。本文希望MV2D可以作为未来研究的一个新的基线。

主要贡献:

本文提出了一个框架MV2D,它可以提升任何2D目标检测器到多视图3D目标检测。

本文证明了基于二维检测的多视图图像中某些相关区域的动态目标查询和聚合可以提高三维检测性能。

本文在标准的nuScenes数据集上评估MV2D,它实现了最先进的性能。

网络设计:

给定输入的多视图图像,本文首先从2D检测器获取2D检测结果,然后为每个2D边界框生成一个动态目标查询。与聚合多视图输入中所有区域的特征不同,一个目标查询必须集中于一个特定的目标。为此,本文提出了一种基于二维检测结果和camera配置的高效相关特征选择方法。然后,动态生成的目标查询,连同它们的3D位置嵌入的相关特征,被输入到具有稀疏交叉注意力层的transformer解码器中。最后,更新的目标查询预测最终的3D边界框。

7f7441b6fe0f69100b6697c43d3fc6e1.png

图1。MV2D的动机。带有固定目标查询的3D检测器(固定查询意味着查询对于不同的输入是不变的)可能会定位错误或忽略某些目标(b),但是2D检测器可以成功地检测到这些目标(c)。如果基于2D检测器生成目标查询,3D检测器可以生成更精确的位置(d)。

b125f9c6921c59ed8f53abbd8c9e66b5.png

图2。提出的MV2D的框架。给定输入的多视图图像,图像特征通过特征提取器进行特征图。同时,利用二维检测器得到每个视点的二维检测结果。动态查询生成器以目标特征、2D检测框和摄像机参数为输入,初始化一组目标查询。将ROI-ALIGN应用于目标区域,得到固定长度的目标特征,用于查询生成器。所有落在目标区域的特征都用3D PE (3D position embed)进行装饰(decorated),然后将目标查询和目标特征输入到解码器,以更新查询特征。与普通transformer解码器相比,MV2D中的解码器采用了稀疏交叉注意力,其中每个目标查询仅与其相关特征进行交互。最后,将预测头应用于更新后的目标查询,生成三维检测结果。

69b68964c13cdd7f97fbad97c9e03583.png

图3。动态目标查询生成器。

9e34e91176dcb9d8902a1129fd535c37.png

图4。相关区域选择的可视化。每个查询框从三维网格生成一个离散的摄像机frustum。然后将摄像机frustum投影到另一个视图的像素坐标上,以计算最小边界框。然后根据与最小边界框的重叠选择相应的框。

实验结果:

d77b3c22a87d973d22c2ab4ca2996aa5.png 2fcb6cfa20a4861e5b341691062b8ac1.png d610b6a334ddd6b98d1f7d96b8bed923.png 0337d104486bee29e38e033fb36bc360.png e7ba8c00ab3b1bc2dd6c73d1e8f523f9.png 591c77c35a172bafc2bcc6df7d861ae2.png 8717c05263465111d49fefa65f3e6795.png

引用:

Wang, Z., Huang, Z., Fu, J., Wang, N., & Liu, S. (2023). Object as Query: Lifting any 2D Object Detector to 3D Detection. ArXiv. /abs/2301.02364

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署协同感知语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

9ccf470ecb636978d3ec469ac1804835.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

c57a1cb2d3418ef1e353b4ca8b439ba2.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

6d88e87c0d907fad456f836dba9a316c.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

f400044af3196414b7ea29fd6b666965.jpeg

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值