【论文阅读】Mono3DVG

📖 :《Mono3DVG: 3D Visual Grounding in Monocular Images》
📘:单目图像中的三维视觉锚定

  • 首先论文给出了Mono3DVG的优势:三维单目相机目标检测,包含准确的文本描述信息
    在这里插入图片描述
    图示说明:
  1. Mono3DVG:使用带有几何信息的语言描述来定位图像中被引用对象的真实3D范围。
  2. 对应的 2D 任务没有捕捉到参考对象的 3D 范围。
  3. 定位特定对象对于单目 3D 对象检测是不可行的。
  4. 3D 视觉锚定需要激光雷达或 RGB-D 传感器,这极大地限制了其应用场景。

Visual Grounding(视觉锚定) 是指将图像中的特定图像区域与描述该区域的语言描述相连接的任务。这个任务要求算法理解图像和语言之间的关联,并将文字描述精确定位到图像中的物体或场景。


摘要 Abstract

  • 我们使用外观和几何信息的语言描述,在单目RGB图像中引入一种新颖的3D视觉锚定任务。
  • 构建了数据集 Mono3DRefer:包含3D对象目标及其文本描述(由chatGPT生成并手动细化)。
  • 提出了网络Mono3DVG-TR:一种基于端到端Transformer基础的神经网络。利用文本嵌入中的外观和几何信息进行多模态学习和3D目标定位。(其中深度预测器被设计为学习几何特征)
  • 提出了双文本引导适配器:用于细化参考对象的多尺度视觉和几何特征。
  • 基于深度-文本-视觉叠加注意,解码器将对象级几何线索和视觉外观融合到一个可学习的查询中。

简介 Introduction

  • 单目3D目标检测缺点:忽略了对3D空间及其对象的语义理解,无法基于人类指令完成特定对象定位。

  • 摘要中提到的数据集 Mono3DRefer
    在这里插入图片描述
    在这里插入图片描述

Mono3DRefer,它提供了 8,228 个对象的 41,140 个自然语言表达式。Mono3DRefer 的描述包含由 ChatGPT 生成的外观和几何信息,并手动细化。几何信息可以提供更精确的指令并识别不可见的对象。即使物体的外观是人类的主要视觉感知,他们也倾向于使用几何信息来区分物体。

Mono3DVG-TR,它由多模态特征编码器、双文本引导适配器、锚定解码器和锚定头组成。

首先,我们采用 Transformer 和 CNN 来提取文本和视觉特征。深度预测器旨在显式学习几何特征。其次,为了细化所指对象的多尺度视觉和几何特征,我们提出了双文本引导适配器,基于像素注意执行文本引导特征学习。最后,一个可学习的查询首先聚合初始几何特征,然后通过文本嵌入增强与文本相关的几何特征,最后从多尺度视觉特征中收集外观特征。深度文本-视觉堆叠注意力将对象级几何线索和视觉外观融合到查询中,完全实现文本引导的解码。

相关工作 Related Work

2D视觉锚定

2D 视觉锚定 旨在通过语言表达来定位图像中参考对象的 2D 边界框。


  1. 两阶段目标检测采用预训练的检测器生成区域建议并提取视觉特征。
  2. NMTree (Liu et al. 2019a)和RvG-Tree (Hong et al. 2022)通过解析表达式来利用树网络
  3. 为了捕捉物体的关系,Yang、Li和Yu(2019)采用了图神经网络
  4. 最近,单阶段管道因其计算成本低而被广泛使用。
  5. 许多作品使用视觉和文本编码器来提取视觉和文本特征,然后融合多模态特征回归框坐标。它们不依赖于预先生成的提案的质量。

  • 然而,这些工作无法获得现实世界中物体的真实3D坐标,极大地限制了应用。

单目3D目标检测

单目三维目标检测 的目的是预测图像中所有对象的三维边界框。


  1. 基于的方法需要预设的 3D 锚点并回归相对偏移。
  2. 基于关键点的方法,然后估计 3D 边界框的大小和位置。由于缺乏深度信息,纯单目方法难以准确定位目标。
  3. 基于伪深度的方法,利用额外的深度估计器来补充深度信息。

  • 然而,现有模型仅从视觉内容中提取空间关系和深度信息。

3D视觉锚定

3D 视觉锚定 任务旨在通过语言表达来定位 3D 场景中参考对象的 3D 边界框。


  1. 与对应的 2D 任务类似,早期的工作采用两阶段网络,它使用预训练的检测器来生成对象建议并提取特征
  2. Feng等人(2021)构建了一个语言场景图、3D提议关系图和3D视觉图。
  3. 3DVG-Trans等都开发了基于Transformer的架构。
  4. Liu等人(2021)提出了一种新的RGB-D图像三维视觉锚定任务。
  5. (2023) 在基于在线捕获的 2D 图像和 3D 点云的大规模动态户外场景中介绍了该任务。

  • 然而,通过 LiDAR 或工业相机捕获视觉数据是昂贵的,并且不容易用于广泛的应用

本文工作 Our Work

数据标注

在这里插入图片描述

总框架:Mono3DVG-TR

端到端的基于Transformer的框架Mono3DVG-TR,它由四个主要模块组成: 1)编码器; 2)适配器; 3)解码器; 4)接地头。

在这里插入图片描述

  • 概述:多模态特征编码器首先提取文本、多尺度视觉和几何特征。双文本引导适配器基于像素级注意力优化所指对象的视觉和几何特征。一个可学习的查询在锚定解码器中使用深度文本视觉叠加注意力来融合几何线索和对象的视觉外观。最后,锚定头采用多个MLP来预测目标的二维和三维属性。

多模态特征编码器

  • 利用预训练的RoBERTa和线性层来提取文本嵌入。
    文本 P t ∈ R C × N t P_t \in \mathbb{R}^{C \times Nt} PtRC×Nt
    N t N_t Nt 是输入文本的长度

  • 利用CNN骨干网和线性层来获得四级多尺度视觉特征。
    图像 I ∈ R H × W × 3 I \in \mathbb{R}^{H \times W \times 3} IRH×W×3
    视觉特征 f v ∈ R C × N v f_v \in \mathbb{R}^{C \times N_v} fvRC×Nv 其中 C = 256,并且:
    在这里插入图片描述

  • 利用轻量级深度预测器来获得几何特征。
    几何特征 f g ∈ R C × N g f_g \in \mathbb{R}^{C \times N_g} fgRC×Ng 其中:
    在这里插入图片描述

  • 然后,我们设计视觉编码器和深度编码器来进行全局上下文推理,并生成具有长期依赖关系的嵌入,表示为:
    p v ∈ R C × N v p_v \in \mathbb{R}^{C \times N_v} pvRC×Nv p g ∈ R C × N g p_g \in \mathbb{R}^{C \times N_g} pgRC×Ng


在这里插入图片描述
深度编码器由一个 Transformer 组成编码器层,用于对几何嵌入进行编码。视觉编码器用 多尺度可变形注意力(MSDA) 代替了多头自注意力(MHSA),以避免对多尺度视觉特征进行过度的注意力计算。此外,我们在MSDA层和前馈网络(FFN)之间插入了一个额外的 多头交叉注意力(MHCA)层 ,为视觉嵌入提供了文本线索。

双文本引导适配器

为了利用文本中的外观和几何信息,提出了双适配器。

在这里插入图片描述

  • 深度适配器以几何嵌入 p g p_g pg 作为 MHCA 的查询,以文本嵌入 p t p_t pt 作为键和值。
  • 然后,使用多头注意(MHA)层对几何特征应用隐含的文本引导自注意。原始几何嵌入 p g p_g pg 为值。细化后的几何特征记为 p g ′ ′ p_g'' pg′′
  • 视觉适配器需要在 MHCA 前后分割和连接多尺度视觉嵌入 p v p_v pv,该嵌入使用大小为 H 16 × W 16 \frac{H}{16} \times \frac{W}{16} 16H×16W p v 1 16 p_v^{\frac{1}{16}} pv161 作为查询。
  • 然后,用 MSDA 代替 MHA ,将细化后的视觉特征记为 p v ′ ′ p_v'' pv′′

  • 然后,我们将 p v 1 16 p_v^{\frac{1}{16}} pv161MHCA 的输出在视觉适配器中进行线性投影,分别得到原始的视觉特征映射 F o r i g ∈ R C × H 16 × W 16 F_{orig} \in \mathbb{R}^{C \times \frac{H}{16} \times \frac{W}{16}} ForigRC×16H×16W 和文本相关度 F t e x t ∈ R C × H 16 × W 16 F_{text} \in \mathbb{R}^{C \times \frac{H}{16} \times \frac{W}{16}} FtextRC×16H×16W 。为了探索视觉和语言之间的对齐关系和细粒度相关性,我们计算特征图中每个区域 ( i , j ) (i, j) (i,j) 的注意力得分 s i j ∈ R H 16 × W 16 s_{ij} \in \mathbb{R}^{\frac{H}{16} \times \frac{W}{16}} sijR16H×16W ,如下所示:
    在这里插入图片描述
    其中, ∥ ⋅ ∥ 2 ∥·∥_2 2 和 ⊙ 分别表示 l 2 l_2 l2 范数和元素乘积。然后,我们使用高斯函数进一步对每个像素特征与文本特征之间的 H 16 × W 16 {\frac{H}{16} \times \frac{W}{16}} 16H×16W大小的语义相似度 S 1 16 S^{\frac{1}{16}} S161 进行建模:
    在这里插入图片描述
    其中,α 和 σ 分别是比例因子和标准偏差,两者都是可学习的参数。我们使用双线性插值对 S 1 16 S^{\frac{1}{16}} S161 进行上采样,并使用最大池化对 S 1 16 S^{\frac{1}{16}} S161 进行下采样。然后我们连接展平的分数图以获得多尺度注意力分数 S ∈ R N v S \in \mathbb{R}^{N_v} SRNv
    在这里插入图片描述
    基于像素级注意力分数,视觉和几何特征集中在与文本描述相关的区域。我们使用特征 p v ′ ′ p_v'' pv′′ p g ′ ′ p_g'' pg′′ 和分数( S 1 16 ∈ R N d S^{\frac{1}{16}} \in \mathbb{R}^{N_d} S161RNd 被展平)来执行逐元素乘法,从而产生参考对象的适应特征:
    在这里插入图片描述

锚定解码器

如总框架的图所示,第 n 个解码器层由一个由 MHA、MHCA 和 MSDA 组成的块组成的块和一个 FFN。可学习查询 p q ∈ R C × 1 p_q \in \mathbb{R}^{C \times 1} pqRC×1 首先聚合初始几何信息,然后通过文本嵌入增强与文本相关的几何特征,最后从多尺度视觉特征中收集外观特征。这种深度文本视觉堆叠注意力自适应地将对象级几何线索和视觉外观融合到查询中。

锚定头

我们的锚定头使用多个多层感知器(MLPs)来预测2D和3D属性。解码器的输出,即可学习的查询 p q ^ ∈ R C × 1 \hat{p_q} \in \mathbb{R}^{C \times 1} pq^RC×1 ,分别输入到不同的预测模块中:首先是线性层用于预测对象类别,然后是一个3层的MLP用于预测2D边框尺寸 (长 l 、宽 r 、上端 t 、下端 b ) (长l、宽r、上端t、下端b) (长l、宽r、上端t、下端b,并且投影3D边框中心 ( x 3 D , y 3 D ) (x_{3D}, y_{3D}) (x3D,y3D),接着是一个2层的MLP用于预测3D边框尺寸 ( h 3 D , w 3 D , l 3 D ) (h_{3D}, w_{3D}, l_{3D}) (h3D,w3D,l3D) ,另一个2层的MLP用于预测3D边框方向θ,还有一个2层的MLP用于预测深度dreg。 ( l , r , t , b ) (l, r, t, b) (l,r,t,b) 代表了2D边框四个侧边到3D中心点投影 ( x 3 D , y 3 D ) (x_{3D}, y_{3D}) (x3D,y3D) 的距离。类似地(Zhang et al., 2022)中的做法,最终预测的深度dpred是这样计算出来的。

模型评估

损失函数

  • 我们将类别、二维框大小和投影的三维中心分组为二维属性,将三维框大小、方向和深度分组为三维属性。2D的损失公式为:
    在这里插入图片描述

  • 其中,λ1∼4设置为(2,5,2,10),如下(Zhang等人,2022)。Lclass是焦损(Lin等人,2017),用于预测九个类别。Llrtb和Lxy3D采用L1损耗。LGIoU是约束二维边界框的GIoU损失(Rezatofighi等人,2019)。3D的损失定义为:
    在这里插入图片描述

  • 总损失公式为:
    在这里插入图片描述

  • 各种评价指标函数的对比结果如下图:
    在这里插入图片描述

定性分析

在这里插入图片描述
上图显示了Cube R-CNN Best、ReSC反向传播、TransVG反向传播和我们提出的方法的3D定位结果。虽然可以获得对象的大致范围,但Cube R-CNN Best无法提供精确的边界框。ReSC反向传播和TransVG反向传播依赖于2D框的精度,无法估计深度,因此无法提供准确的3D边界框。我们的方法包括文本RGB和文本深度两个分支,充分利用外观和几何信息进行多模态融合。

附录

本文所有参考如下,如有侵权联系删除:
论文:《Mono3DVG: 3D Visual Grounding in Monocular Images》
项目地址:https://github.com/ZhanYang-nwpu/Mono3DVG?tab=readme-ov-file

  • 18
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: Mono3D网络是一种用于单目图像深度估计和3D目标检测的神经网络模型。它的主要思想是将单目图像转换为深度估计和3D检测任务的输入,然后通过卷积神经网络进行处理,最终输出深度估计和3D检测的结果。 具体而言,Mono3D网络首先通过卷积神经网络提取输入图像的特征,然后将这些特征用于预测图像中每个像素的深度估计。接着,网络还可以将这些特征用于检测图像中的3D物体,预测它们的位置、姿态、大小等信息。 Mono3D网络的主要优势在于它能够同时处理深度估计和3D检测任务,而且只需要单目图像作为输入,不需要额外的传感器或多个视角的图像。这使得Mono3D网络在自动驾驶、虚拟现实、机器人等领域中有着广泛的应用前景。 ### 回答2: Mono3D网络的主要思想是通过单张图像实现三维目标检测和定位。传统的三维目标检测方法通常基于多个图像或点云数据来提取三维信息,但这些方法需要大量的计算资源和数据,限制了它们在实际应用中的可用性和实时性。相比之下,Mono3D网络利用单张图像作为输入,利用深度学习技术从中提取三维目标的信息。 Mono3D网络首先通过卷积层和池化层对输入图像进行特征提取,得到高层次的语义特征表示。然后,网络根据这些特征预测出二维边界框和相机参数,如焦距、光心等。接下来,通过与深度回归模块结合,网络可以将二维边界框转化为三维边界框,从而实现目标的位置和尺寸的估计。 与传统的方法相比,Mono3D网络具有以下优势:首先,它只需要一张图像作为输入,减少了数据采集和处理的时间和成本。其次,Mono3D网络能够实时地检测和定位目标,适用于许多实时应用场景,如自动驾驶、机器人导航等。另外,Mono3D网络还能够解决传统方法中的目标遮挡和视角变化的问题,提高了目标检测和定位的准确性。 总而言之,Mono3D网络通过单张图像实现三维目标检测和定位,具有实时性高、成本低以及准确性好的优势,有着广泛的实际应用潜力。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值