【多模态】18、ViLD | 通过对视觉和语言知识蒸馏来实现开集目标检测(ICLR2022)

在这里插入图片描述

论文:Open-vocabulary Object Detection via Vision and Language Knowledge Distillation

代码:https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild

效果:

  • 在 zero-shot 测试下,coco 达到了 36.6 AP,PASCAL VOC 达到了 72.2AP,Object365 达到了 11.8AP

本文提出了 Vision and Language knowledge Distillation(ViLD):

  • 通过将预训练的开集分类模型作为 teacher model,来蒸馏两阶段目标检测器 student model
  • 即使用 teacher model 来对 category texts 和 proposal region进行编码
  • 然后训练 student detector 来对齐 text 和 region embedding

一、背景

在这里插入图片描述

如图 1 所示,作者思考,目标检测器能否识别 base category 之外的类别?

所以,本文作者就构建了一个 open-vocabulary 目标检测器,用于检测从 text 输入的任意类别的目标

现有的目标检测方法都是只学习数据集中出现的类别,而扩充检测类别的方法就是收集更多的类别标注数据,如 LVIS 包括 1203 个类别,有较为丰富的词汇量,但也不够强大。

另外一方面,互联网上有丰富的 image-text pairs,CLIP 就尝试使用 4 亿图文对儿来联合训练模型,并且在 30 个数据集上展示了很好的效果

zero-shot 迁移的效果很大程度上来源于预训练的 text encoder 对任意类别文本的编码能力,尽管现在对 image-level 特征表达的编码能力已经被证明挺好的了,但还 object-level 的特征编码仍然很有挑战

所以,本文作者思考能否从开集分类模型中拿到一些能力来用于开集检测

作者首先从 R-CNN 类的方法入手,将开集目标检测也构建为两个子问题:

  • object proposal 的生成
  • open-vocabulary 图像分类

如何操作 R-CNN 类的模型:

  • 先基于基础类别训练一个 region proposal model
  • 然后使用预训练好的图像分类器来对 cropped object proposal 进行分类,可以包括新类和基础类
  • 作者使用 LVIS 当做 benchmark,把 rare 类别作为 novel categories,将其他类当做 base categories
  • 缺点:很慢,因为每个 object proposal 都是一个个的进入分类器来分类的

基于此,作者提出了 ViLD,来训练两阶段的开放词汇目标检测器,ViLD 包含两部分:从开集目标分类模型的输出中来学习 text embedding 和 image embedding

  • ViLD-text:只会从基础类中蒸馏
    • 首先,将类别名称输入预训练好的 text encoder 来得到 text embedding
    • 然后,使用推理的 text embedding 结果来对检测到的 region 进行分类
  • ViLD-image:会同时从基础类和新类中来蒸馏,因为 proposal 网络可能会检测到包含新类的区域
    • 首先,将 object proposal 经过 NMS 算法过滤后,在原图上裁剪,裁剪出原图区域,然后将裁剪后的原图送入 CLIP 的 image encoder 中,CLIP 的 image encoder 的输出就是该区域的教师特征,
    • 然后,训练一个 Mask R-CNN 来学习教师网络的输出,也就是将 student 输出和 teacher image embedding 来对齐

二、方法

在这里插入图片描述

作者将检测数据集中的类别分类 base 和 novel:

  • base: C B C_B CB,参与训练
  • novel: C N C_N CN

编码器符号:

  • T ( . ) T(.) T(.):text encoder
  • V ( . ) V(.) V(.):image encoder

2.1 对新类别的定位 Localization

开放词汇目标检测的第一个挑战就是对新类别目标的定位

作者以 Mask RCNN 为例,作者使用 class-agnostic 模块替换了 class-specific 定位模块,对每个 RoI,模型只能对所有类别预测一个 bbox 和一个 mask,而不是每个类别都会预测一个,所以,使用 class-agnostic 的模块可以扩展到用于新类别的定位

2.2 使用 cropped regions 进行开放词汇检测

一旦对目标候选区域定位成功,就可以使用预训练好的分类器来对区域进行分类

Image embedding:

  • 作者基于基础类别 C B C_B CB 训练了一个 proposal 网络,来提取感兴趣区域
  • 首先从原图中 crop 并 resize ,然后将原图区域输入 CLIP 的 image encoder 中计算 image embedding
  • 作者使用了两种 crop 区域的 resize 方式:1x 和 1.5x,1.5x 的用于提供更多的上下文信息,整合后的 embedding 然后会被归一化

Text embedding:

  • 作者会使用 prompt 模版(如 “a photo of {} in the scene”)来送入 text encoder,并得到 text embedding

相似度:

  • 计算完两个 embedding 之后,作者使用 cosine similarities 来计算 image embedding 和 text embedding 的相似程度,然后使用 softmax 激活和类内的 NMS 来得到最终的检测结果

效率:

  • 由于每个 cropped region 都会被送入 image encoder 来提取 image embedding,所以效率很低

2.3 ViLD

在这里插入图片描述

作者提出了 ViLD 来缓解上面提到的效率低的问题

使用 text embedding 来代替分类器:

  • 首先,引入了 ViLD-text,目标是训练一个可以使用 text embedding 来分类的 region embedding
  • 如图 3b 展示了训练的目标函数,使用 text embedding 来代替了如图 3a 的分类器,只有 text embedding 用于训练
  • 对于没有匹配到任何 gt 的 proposal,被分配到背景类别,可以学习其自己的编码 e b g e_{bg} ebg
  • 对所有类别编码,都计算 region embedding 和 category embedding 的余弦相似性,包括前景和背景 e b g e_{bg} ebg
  • 然后,计算带温度参数的 softmax 激活后的分布并计算 cross-entropy loss
  • 为了训练第一个阶段,也就是 region proposal 网络,作者在线抽取 region proposal r,并且从头开始使用 ViLD-text 来训练

ViLD-text 的 loss 如下:

在这里插入图片描述

蒸馏 image embedding:

训练 ViLD-image 时,主要是从 teacher model 来蒸馏到 student model 上

为了提升训练速度,对每个 training image 先离线抽取 M 个 proposal,并且计算其对应的 image embedding

这些 proposal 包含了基础类和新类,所以网络是可以扩展的

但 ViLD-text 只能从基础类学习

ViLD-image loss 是 region embedding 和 image embedding 的 L1 loss:

在这里插入图片描述

ViLD 的整个训练 loss 如下:w 是超参数

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

<think>嗯,用户想了解多模态知识蒸馏实现方法相关论文、代码。首先,我需要明确多模态知识蒸馏的基本概念。根据引用[1],知识蒸馏多模态学习中用于解决数据稀缺模态交互复杂的问题。接下来,用户需要具体的实现方法,可能涉及不同模态间的知识传递,比如文本到图像或图像到文本。 然后,我应该考虑用户提到的论文代码部分。引用[3]提到了ViLD方法,使用视觉语言知识蒸馏进行检测,这可能是一个例子。另外,引用[2]中NVIDIA的跨领域小样本学习工作也相关,需要纳入回答。 用户的问题结构可能需要分点回答,先讲概念,再讲方法,然后提供论文代码资源。要确保每个部分都有对应的引用支持。例如,跨模态蒸馏部分可以引用[1]中的内容,而具体模型如ViLD则引用[3]。 还需要注意用户可能对实现细节感兴趣,比如框架结构或损失函数设计。比如ViLD中的教师-学生模型对比学习可能需要详细说明。同时,代码资源部分需要提供GitHub链接,确保链接有效,并推荐相关库如OpenMMLab。 最后,检查是否有遗漏的关键点,比如挑战未来方向,虽然用户主要问方法,但简要提及这些可以增强回答的全面性。确保所有引用正确对应,避免混淆。可能还需要提醒用户参考具体论文代码库以深入理解实现细节。</think>### 多模态知识蒸馏实现方法与资源整理 #### 1. **核心概念** 多模态知识蒸馏(Multimodal Knowledge Distillation)通过将复杂多模态模型(教师模型)的知识迁移到轻量模型(学生模型),解决多模态学习中的数据稀缺、模态对齐模型效率问题[^1][^3]。其核心是通过跨模态交互(如视觉-语言)或单模态内部的知识传递,提升学生模型在目标任务的泛化能力。 #### 2. **实现方法分类** ##### 2.1 跨模态知识蒸馏 - **定义**:将一种模态(如文本)的知识迁移到另一种模态(如图像)模型中 - **典型方法**: - **ViLD**(Vision-Language Distillation):教师模型使用CLIP等预训练多模态模型,学生模型通过对比学习对齐视觉特征文本语义,实现放词汇目标检测。 - **跨领域动作识别**(NVIDIA ECCV 2024):利用教师模型从第三人称视频中提取时空特征,指导学生模型在低资源的第一人称视频数据上学习[^2]。 - **损失函数设计**: $$ \mathcal{L}_{KD} = \alpha \cdot \mathcal{L}_{logits} + \beta \cdot \mathcal{L}_{embedding} + \gamma \cdot \mathcal{L}_{contrastive} $$ 其中 $\mathcal{L}_{contrastive}$ 用于对齐跨模态特征空间[^3]。 ##### 2.2 多模态联合蒸馏 - **框架示例**: ```python # 伪代码:多模态教师→单模态学生 teacher = MultiModalModel() # 教师模型(多模态输入) student = UniModalModel() # 学生模型(单模态输入) # 知识迁移过程 for x_image, x_text in dataset: t_feat = teacher(x_image, x_text) # 多模态特征融合 s_feat = student(x_image) # 单模态特征 loss = KL_divergence(s_feat, t_feat.detach()) ``` #### 3. **关键论文与代码** | 方法 | 论文 | 代码 | |------|------|------| | ViLD | [Open-vocabulary Object Detection via Vision and Language Knowledge Distillation (ICLR 2022)](https://arxiv.org/abs/2104.13921) | [官方代码](https://github.com/tensorflow/tpu/tree/master/models/official/detection/projects/vild) | | 跨域动作识别 | [ECCV 2024: Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition](https://research.nvidia.com/publication/2024-05_ECCV) | 待公 | | 多模态蒸馏框架 | [MMDetection3D](https://github.com/open-mmlab/mmdetection3d) | 多模态蒸馏模块 | #### 4. **挑战与优化方向** - **模态对齐**:通过注意力机制(如跨模态transformer)实现细粒度对齐 - **动态蒸馏**:根据任务难度动态调整蒸馏强度(引用[1]提出的动态知识蒸馏方向) - **轻量化设计**:使用神经网络架构搜索(NAS)优化学生模型结构 #### 5. **快速实践建议** 1. 使用OpenMMLab系列工具(MMDetection/MMClassification)快速搭建基线 2. 在特征提取层添加KL散度损失实现logits级蒸馏 3. 对多模态数据预处理时,需统一不同模态的采样率特征维度
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值