ECCV 2024|小样本学习新突破!NVIDIA提出:跨领域多模态知识蒸馏动作识别

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

b8f08575a1d7b2ba3b95622721de99ed.png

转载自:多模态机器学习与大模型

Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition

作者列表:

Masashi Hatano, Ryo Hachiuma, Ryo Fujii, and Hideo Saito

作者单位:

Keio University, NVIDIA

论文链接:

https://arxiv.org/pdf/2405.19917

代码链接:

https://github.com/masashi-hatano/MM-CDFSL

简介

跨域小样本学习任务(CDFSL)设置中与自我中心动作识别主要面临两个关键挑战:(1)自我中心视频中的极端领域差距 和(2)现实世界应用的计算成本。本文提出了一种域自适应且计算高效的方法 MM-CDFSL,旨在增强对目标域的适应性并提高推理成本。首先采用教师模型将多模态蒸馏合并到学生 RGB 模型中以解决上述第一个挑战。每个教师模型都根据各自模态的源数据和目标数据进行独立训练。在多模态蒸馏过程中仅利用未标记的目标数据可以增强学生模型对目标域的适应性。其次,引入集成屏蔽推理即通过屏蔽减少输入标记数量,从而在集成预测中减轻掩蔽引起的性能下降,有效解决了第二个挑战。通过在多个小样本学习基准数据集上的实验,验证了所提方法在自我视频分析中的有效性。

研究动机

(1)对目标域的适应性。 在以自我为中心的动作识别任务上,由于背景的视觉信息变化很大,仅仅依靠RGB信息来适应域是不可行的。自我视频分析中,存在多种模态的数据,包括视觉和非视觉信号。这些不同模态的数据可能提供互补的信息,有助于提高模型的学习效果。

(2)推理成本。 使用时间感知操作处理密集采样的输入帧使得该过程的计算成本昂贵。这种计算强度阻碍了资源有限的边缘设备的实际应用。因此,降低推理成本对于以自我为中心的行为识别至关重要。

论文贡献

  • 提出了一个多模态跨域小样本学习框架,该框架能够在小样本学习情境下有效利用视觉和非视觉信息。

  • 利用了领域适应和类判别性预训练和多模态特征蒸馏,设计了一种用于以自我为中心的动作识别任务的 CD-FSL 的新方法。

  • 提出集成屏蔽推理以降低计算成本。

  • 在多个自我视频小样本学习基准数据集上进行实验,验证了该方法的优越性。

MM-CDFSL

总体框架

29cef5446a2ca1378f9311b8f3d984eb.png

图 2:提出的方法框架。

提出的框架结合了多模态数据(如视觉和非视觉信号)和跨域适配机制,以提高小样本学习的性能。如图2所示,MM-CDFSL方法有两个元训练和两个元测试阶段:1. 学习所有模态的领域适应和类判别特征,2. 将多模态特征提炼到学生 RGB 编码器中,3. 用于适应新类的小样本学习,以及4. 在推理过程中使用 P Tube Masking 进行集成屏蔽推理。

领域适应和类判别特征预训练

在预训练阶段,每个模态的 VideoMAE都经过独立训练,通过两个目标函数学习源/目标域之间共享的表示以及源域上的判别特征:(1)源域和目标域的联合重建数据和(2)源数据集上动作类别的分类。与 CDFSL-V 中的预训练阶段仅重建源和目标数据集上的数据以减轻域转移相反,文中通过上述两个目标的联合优化来训练模型,以有效地学习共享和目标判别性特征表示。

多模态蒸馏

将域适应的多模态特征提炼到 RGB 特征提取器 ERGB 中,以进一步提高对目标域的适应性。与仅使用 RGB 模态相比,使用多种模态有助于减轻源域和目标域之间的域偏移,因为视觉信息容易受到光照、背景和外观变化的影响。结合光流和手势等附加模式引入了对这些视觉变化不太敏感的补充信息。此外,将域适应和类判别性的多模态特征提炼为 RGB 模态可以降低模型复杂性,同时缩小域差距。它的目的是为 RGB 模型注入多模态学习的领域适应特性,而无需在推理过程中处理和集成多种模态数据类型的开销。

集成掩码推理

小样本训练。保留 RGB 学生编码器,并使用来自支持集 S 的采样 N 路 K-shot 数据来训练编码器顶部的分类器头 G'。在小样本训练过程,使模型能够在推理时根据屏蔽输入进行预测。采用集成学习来减轻由于屏蔽输入帧而导致的性能下降。

实验结果

在多个自我视频少样本学习基准数据集上进行了实验,这些实验包括不同模态的数据源,以及跨域的学习情境。

表 2:跨域小样本动作识别准确率

55dca9584f5c60573498455cdf67da65.png

表 3:推理成本

2a30ddd0f2148f31733de28ddcb6456e.png a154d421991f2934e57123116ffcaaf4.png

图 3:准确性与推理时间。

实验结果表明:

  • 提出的多模态跨域小样本学习方法在所有测试的基准数据集上均优于单模态的少样本学习方法。

  • 跨域适配模块显著提高了模型在目标域上的表现,尤其是在源域和目标域差异较大的情况下。

  • 模态融合进一步提升了模型的准确性,表明多模态信息在小样本学习中具有重要作用。

bbfd52a5ef92ec8e9553263a26e793ee.png

关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️

83807328e9931a5833931a87c4238728.png

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值