论文阅读4 OpenSight: A Simple Open-Vocabulary Framework for LiDAR-Based Object Detection

1、介绍

本论文翻译为《OpenSight:一种简洁的基于激光雷达的开放词汇物体检测框架》,提出了在激光雷达(LiDAR)数据上进行开放词汇表(open-vocabulary)物体检测的问题。传统基于激光雷达的物体检测研究主要集中在封闭集(closed-set)场景中,在现实生活中的应用存在不足。如下图所示:在这里插入图片描述
当查询新的类别“摩托车”(“motorcycle”)时,模型错误地检测了已知的物体“汽车”(用红色表示),存在过拟合问题。
OpenSight利用2D-3D几何先验来进行通用物体的初步识别和定位,然后对检测到的物体进行更具体的语义解释。首先从激光雷达附带的摄像机图像生成通用物体的2D边界框。然后,这些2D边界框与激光雷达点一起被提升回激光雷达空间来估计相应的3D边界框。

2、综述

  1. 2D-3D几何先验:利用2D图像中的信息来生成通用物体的2D边界框,并将这些边界框转换回3D空间以估计3D边界框。
  2. 时序感知(Temporal Awareness):通过关联连续时间戳的3D边界框预测,来重新校准当前帧中可能错过或不准确的物体。
  3. 空间感知(Spatial Awareness):使用大型语言模型(LLMs)来获取物体的大小先验,并选择与这些先验紧密对齐的3D边界框,然后在当前帧中随机放置这些边界框以增加通用物体的可见性。
  4. 对齐泛化:在不同特征空间或模态之间进行特征对齐,并利用这种对齐来提高模型对未见类别或数据的泛化能力。
  5. 大型语言模型(LLMs)后处理:使用LLMs提供的大小先验来辅助重新校准预测结果,提高模型的准确性。
  6. 大小先验:对物体大小的先验知识或假设。
  7. CLIP模型:多模态学习框架,通过对比学习的方式,训练一个能够将视觉信息(图像)和语言信息(文本)关联起来的模型。
  8. 3D frustum:从特定视角观察时,物体表面与观察平面(如相机图像平面或激光雷达的感应区域)相交形成的一个三维空间区域。
  9. Grounding DINO:一种用于开放词汇表物体检测的模型,它结合了视觉和语言的预训练知识来提高检测性能。

3、算法

下图为符号介绍:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
所提到的公式:
在这里插入图片描述

4、模型

下图为OpenSight 模型框架:
在这里插入图片描述在通用物体感知中,2D边界框最初被映射回3D空间(初始边界框估计)。随后,通过集成时序和空间感知来检索遗漏的物体或增加它们的可见性。然后,使用这些增强的估计来计算通用物体损失并优化3D检测模型。在特定语义解释中,将优化后的3D模型生成的3D边界框投影到图像平面上,以获取投影的2D边界框。这些投影随后与通过grounding DINO识别的最近的2D边界框匹配,以实现3D LiDAR物体特征与相应2D图像特征的对齐。

  1. **Generic Object Perception **:通用物体感知,指的是模型检测和理解图像中物体的能力,无论物体的具体类别如何。
  2. Semantic interpretation:语义解释是为检测到的物体赋予具体含义或类别标签的过程。
  3. Detector:模型检测器,本文模型使用了2D和3D Detector,分别用于生成2D和3D边界框。
  4. Lift 2D boxes:将二维的边界框从二维图像空间转换或提升到三维空间的过程。
  5. Temporal&Spatial awareness :时序感知和空间感知。

下图展现了时序感知
在这里插入图片描述
时序感知的目的是利用视频序列中的时间信息来提高对物体检测的准确性和连续性。这在处理激光雷达数据时尤其重要,因为单帧数据可能不足以提供完整的物体信息。通过时序感知,模型能够更好地处理物体的遮挡、运动模糊以及点云数据的稀疏性问题,从而提高检测的鲁棒性。

下图展现了空间感知
在这里插入图片描述
空间感知的目的是提高模型对于不同位置和尺寸物体的检测能力,尤其是在激光雷达点云中对于远距离和不同大小物体的识别。
图中向GPT-4提出问题:“在自动驾驶场景中,{#CLASS}的平均尺寸是什么?”。这里的"{#CLASS}"是一个占位符,它应该被替换为一个具体的类别名称,比如“汽车”、“行人”或“交通锥”。然后可以从语言模型中提取关于物体尺寸的先验知识,以辅助3D边界框的估计和选择。

下图展示了OpenSight框架在不同激光雷达(LiDAR)帧中检测新类别对象,使用了正面视图、侧面视图和鸟瞰图:
在这里插入图片描述

5、实验

5.1 数据集

在nuScenes数据集上进行本文的开放词汇实验。这是一个大规模的户外数据集,具有多模态数据模式。数据集中的每一帧都包含来自一个32束激光雷达和六个相机的数据,提供了周围环境的全面视图。该数据集总共包含1000个场景,多达140万个标注的3D边界框,涵盖10个类别。

5.2 指标

为了定量评估,实验最初采用每个类别的平均精度(AP)和所有新颖类别的平均平均精度(mAP)。考虑到激光雷达点云密度随距离变化,引入了基于距离的mAP指标:mAP-near、mAP-midrange和mAP-far。同样,考虑到不同类别中物体的大小差异(例如,“公交车”与“交通锥”),我们将类别分为“大”、“中”和“小”,并提出了mAP-large、mAP-medium和mAP-small。

5.3 实验结果

  1. 下表展示了在nuScenes数据集上,不同方法在开放词汇表情况下的性能比较。所有类别都被当作新类别,即模型在训练时没有见过这些类别的真实标注框和标签:
    在这里插入图片描述在这里插入图片描述

  2. Table 2和Table 3提供了不同维度的性能评估指标,分别展示了模型对于不同远近目标和不同大小目标的检测能力:
    在这里插入图片描述

  3. 下图为时间感知和空间感知模块的消融实验:
    在这里插入图片描述

  4. 下图为不同配置的消融实验:
    在这里插入图片描述
    D.A.代表直接对齐,I.G.代表3D-2D特征集成,Priors指的是使用大型语言模型(LLMs)生成的先验知识。

  5. 下图展现了在不同置信度阈值下,对于特定类别(如汽车、卡车、行人)的平均精度(AP)和平均召回率(AR)的评估结果:
    在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值