AAAI2024最佳解读|M2-CLIP A Multimodal, Multi-task Adapting Framework for Video Action Recognition

论文标题

A Multimodal, Multi-Task Adapting Framework for Video Action Recognition 面向视频动作识别的多模态、多任务自适应框架

论文链接

A Multimodal, Multi-Task Adapting Framework for Video Action Recognition论文下载

论文作者

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

内容简介

本文提出了一种名为M2-CLIP的多模态、多任务自适应框架,旨在解决视频动作识别中的挑战,兼顾高监督性能和强泛化能力。M2-CLIP通过在视觉和文本分支中引入多模态适配器,增强了各自的架构。具体而言,设计了一种新颖的视觉TED-Adapter,能够进行全局时间增强和局部时间差异建模,以提高视觉编码器的时序表示能力。同时,文本编码器适配器的引入加强了语义标签信息的学习。此外,M2-CLIP还设计了一个多任务解码器,利用丰富的监督信号来满足强监督性能和泛化能力的需求。实验结果验证了该方法的有效性,M2-CLIP在监督学习中表现出色,同时在零样本场景中保持了强大的泛化能力。在这里插入图片描述

分点关键点在这里插入图片描述

  1. M2-CLIP框架

    • M2-CLIP是一个多模态、多任务的自适应框架,旨在将CLIP模型有效迁移到视频动作识别任务中。通过引入多模态适配器,M2-CLIP能够在保持高监督性能的同时,确保在零样本场景中的强泛化能力。
  2. 视觉TED-Adapter

    • 该适配器通过全局时间增强和局部时间差异建模,显著提升了视觉编码器的时序表示能力。它能够捕捉视频中的时空特征和局部运动模式,从而提高动作识别的准确性。
  3. 文本编码器适配器

    • 为了增强对动作标签的语义理解,M2-CLIP在文本分支中引入了适配器。这些适配器帮助模型更好地捕捉与动作相关的语义信息,改善了文本和视觉表示之间的对齐。
  4. 多任务解码器

    • M2-CLIP的多任务解码器包含多个学习任务,旨在提高多模态框架的联合表示能力。通过对比学习、跨模态分类、跨模态掩码语言建模等任务,解码器能够有效地促进不同模态之间的语义对齐。
  5. 实验结果

    • 实验表明,M2-CLIP在多个视频动作识别数据集上表现优异,尤其是在零样本场景中,展现出强大的泛化能力和较少的可调参数,证明了该框架的有效性和实用性。在这里插入图片描述

中文关键词

  1. 多模态
  2. 视频动作识别
  3. 自适应框架
  4. 视觉编码器
  5. 文本编码器
  6. 多任务解码器
  7. 监督学习
  8. 泛化能力

AAAI论文合集:

AAAI论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值