【论文笔记】X-Trans2Cap: Cross-Modal Knowledge Transfer using Transformer for 3D Dense Captioning

X-Trans2Cap通过知识蒸馏技术提升了单模态3D字幕的性能,特别是在处理点云输入时。教师网络使用2D和3D模态,而学生网络仅用3D,通过特征一致性约束进行学习。这种方法在ScanRefer和Nr3D数据集上显著提高了CIDEr分数,表明2D先验知识能有效增强3D字幕生成能力。
摘要由CSDN通过智能技术生成

 X-Trans2Cap 通过single 3D 模型支持的知识蒸馏有效地提高了单模态 3D 字幕的性能。在训练阶段,教师网络利用辅助的 2D模态并通过特征一致性约束引导仅以点云作为输入的学生网络。在 ScanRefer 和 Nr3D 数据集上分别约为 +21 和 +16 CIDEr point. 

1.介绍

      计算机视觉社区在图像字幕 [3,25,33,46,50] 和密集字幕 [24-26,30] 方面取得了重大进展。与使用单个句子描述 2D 图像的图像字幕不同,密集字幕 (DC) 可以更好地解释“一张图片胜过一千个单词”。对于 DC 任务,首先感知图像中的每个对象,然后根据其性质和上下文提供更个性化和更详细的描述。

       与具有规则网格和密集像素的 2D 图像不同,由一组点表示的 3D 数据在 3D 空间中是无序且分散的,阻碍了基于 2D 的方法直接扩展到 3D 场景。为了在 3D 点云上执行密集字幕,[9] 提出了第一种方法,即 Scan2Cap,直接将 3D 对象检测与自然语言生成相结合。

      Scan2Cap 首先采用检测主干来获得对象建议,然后通过应用关系图和上下文感知注意字幕模块来学习对象关系并生成标记。由预训练的 E-Net [36] 提取的多视图特征进一步投影到输入点云上,以增强最终字幕。

Scan2Cap 的问题:

      1)Scan2Cap 中的对象表示存在缺陷

      2) 在训练和推理阶段都需要额外的 2D 输入

X-Trans2Cap:

      教师网络采用多模态输入,而学生网络仅利用 3D 输入。

      (1)设计了一个基于 Transformer 的知识转移框架,具有更灵活的输入控制和更好的表示。

      (2)一种具有跨模态融合 (CMF) 模块和跨模态特征对齐目标的改进知识蒸馏操作,用于知识泛化

          端到端的训练方案,2D 模态中的先验可以固有地改善教师网络和学生网络,即我们的模型利用了颜色和纹理感知 2D 表示并降低了额外的计算成本。

      (3)在推理阶段,X-Trans2Cap 只需 3D 输入即可执行出色的字幕性能

在ScanRefer上的CIDEr点从 75.75 提高到 87.09

2.相关工作

1.图像字幕和密集字幕

       许多方法专注于利用注意力机制来捕获图像中有意义的信息,例如,在网格区域 [33, 50] 和检测到的对象 [3, 34] 上。此外,一些作品试图将注意力与图神经网络 [14、23、52、54] 或 Transformer [10] 结合起来以提高性能。

      对于密集字幕任务,它需要为所有检测到的对象生成字幕。2D,[51] 考虑了显着图像区域之外的上下文,并利用了全局图像特征。 [26]进一步介绍了检测区域之间的对象关系。

2.3D视觉和语言

      现有的工作侧重于使用语言来限制单个对象,例如,检测引用的 3D 对象 [8] 或根据语言短语区分对象 [2]。ScanRefer [6] 和 ReferIt3D [1] 引入了在给定语言描述的情况下在 3D 场景中定位对象的任务。TGNN [20] 和 InstanceRefer [56] 遵循上述设置并利用全景分割来减少提案的数量。最近在 Scan2Cap [9] 中提出了 3D 密集字幕。它侧重于分解 3D 场景并描述对象的色彩和空间信息。最近,[59] 将上述 3D 接地和字幕任务相结合,以相互增强两个任务的性能。

3.跨模态和知识迁移

       [18]随后的研究 [4,7] 通过匹配网络中的中间表示以及使用不同方法的输出来增强蒸馏。[57] 提出在网络之间对齐注意力激活图。 Srinivas 和 Fleuret [43] 通过将雅可比匹配应用于网络对其进行了改进。近年来,跨模态知识蒸馏[16,47,55,58]通过将知识蒸馏应用于跨不同模态的知识转移来扩展知识蒸馏。2D 图像上提出了 2D 辅助预训练 [32]、将 2D 卷积核膨胀到 3D [48] 以及带有掩模注意的联合训练 [53],来解决以上问题。

3.方法

1.对象表示

      有M个对象,剩余部分的对象集合                             其中 Om 和 Oattm 被描述为第 m 个对象,在每次迭代中,我们随机选择一个对象作为目标对象 (O*),其他 M-1 个对象,即 {Om ∈ O} ∩ {Om ̸= O∗},被视为参考对象,仅提供与目标对象的位置或关系的线索。

 3D 模态输入:

‘;’表串联操作,Of3dm表特征输出,Oclsm表示预测语义的one-hot向量,Ob3dm是对象的3D检测框,box中心(x,y,z)和大小(w,h,l)组成

2D输入:

      对于每个对象,将其 3D 边界框的基本事实投影到原始 ScanNet 视频 [11] 上,以获得相应的 2D 框。在每个训练步骤中,从视频序列中随机选择一张图像以生成额外的输入。在每个训练步骤中,从视频序列中随机选择一张图像以生成额外的输入。 2D 框区域中的特征由在 Visual Genome [27] 数据集上预训练的 Faster-RCNN 检测器 [41] 提取,这些检测器被视为第 m 个实例的 2D 特征,即 Of2dm。

2.基准模型:TransCap

       采用 Transformer [44] 结构来生成目标对象的描述。图 2 (b) 中的学生网络展示了 TransCap 的架构。它包含 L 个编码器层和一个解码器层。在每个编码器层中,利用自注意机制来获得输入特征的置换不变编码。

      设计了自注意算子 SA(X),

      其中 X ∈ RM×D 是一个 D 维序列,Wq、Wk 和 Wv 是可学习权重的矩阵。与传统的注意力机制[44]不同,两个持久记忆向量 Mk 和 Mv 被附加来学习先验知识。

      字幕解码器以编码器层先前生成的单词和特征为条件,以生成下一个标记。具体来说,它集成了来自不同编码器层的特征,并对生成的标记执行交叉注意。

CA() 代表编码器-解码器交叉注意 [44],使用来自解码器输出 Y 的查询以及来自第 l 层编码器输出 ^Xl 的键和值计算。

α 是与交叉注意结果具有相同大小的可学习权重

3.跨模态融合

     为了进一步增强学生网络学习多模态表示的能力,我们利用随机掩盖教师网络的特征。

    CMF 模块采用从学生到教师的单向连接

4.目标函数

特征对齐损失  L1损失对齐教师和学生网络之间的解码器特征

字幕损失 通过应用 CIDEr-D 分数 [3]作为奖励

贪婪解码 [3, 42]

总损失

其中 α、β 和 γ 是每个单独损失的权重。为了保证损失项大致相同,我们微调了验证拆分的权重,并在实验中根据经验将它们设置为 α = 1、β = 1 和 γ = 0.1。

5.训练和推理

在训练阶段,两个网络都被利用,并在相应的编码器层和特征对齐之间进行 CMF 模块以增强相互表示。在推理过程,只使用 3D 模态

4.实验

1.数据集

ScanRefer ScanRefer 数据集 [6] 使用 51,583 个语言查询对 ScanNet [11] 数据集中的 800 个 3D 室内场景进行注释。它遵循官方的 ScanNet 拆分,分别在训练/验证/测试集中包含 36,665、9,508 和 5,410 个样本。

Nr3D 3D 中的自然参考 (Nr3D) [1] 与 ScanRefer 具有相同的训练/验证拆分。它包含由 Amazon Mechanical Turk (AMT) 工作人员注释的 41,503 个查询。

2.任务和指标

任务

      局部实时密集字幕:给出每个实例点云,然后根据属性信息和空间关系生成字幕

      有3D扫描的密集字幕:从3D扫描中检测对象,然后根据检测结果为每个对象生成标题

指标

      CIDEr、BLEU-4、METEOR、ROUGE、loU、mAP

3.3D密集字幕结果

Orcal DC

扫描密集字幕

2D-3D 利用 Mask R-CNN [17] 在图像中生成 2D 提议,其中相应的 2D 边界框和特征被馈送到描述生成模块 [9]。

3D-2D 利用 VoteNet [38] 提取 3D 提议,这些提议被投影回 2D 图像。

可视化

知识迁移比较

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值