AAAI2024最佳解读|M2-CLIP A Multimodal, Multi-task Adapting Framework for Video Action Recognition

paixiaoxin

于 2025-03-06 20:16:29 发布

阅读量551

点赞数 22

分类专栏：文献阅读论文合集文章标签：多模态视频动作识别自适应框架视觉编码器文本编码器多任务解码器监督学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/paixiaoxin/article/details/145858388

版权

文献阅读同时被 2 个专栏收录

366 篇文章

订阅专栏

351 篇文章

订阅专栏

论文标题

A Multimodal, Multi-Task Adapting Framework for Video Action Recognition 面向视频动作识别的多模态、多任务自适应框架

论文链接

A Multimodal, Multi-Task Adapting Framework for Video Action Recognition论文下载

论文作者

Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu

内容简介

本文提出了一种名为M2-CLIP的多模态、多任务自适应框架，旨在解决视频动作识别中的挑战，兼顾高监督性能和强泛化能力。M2-CLIP通过在视觉和文本分支中引入多模态适配器，增强了各自的架构。具体而言，设计了一种新颖的视觉TED-Adapter，能够进行全局时间增强和局部时间差异建模，以提高视觉编码器的时序表示能力。同时，文本编码器适配器的引入加强了语义标签信息的学习。此外，M2-CLIP还设计了一个多任务解码器，利用丰富的监督信号来满足强监督性能和泛化能力的需求。实验结果验证了该方法的有效性，M2-CLIP在监督学习中表现出色，同时在零样本场景中保持了强大的泛化能力。在这里插入图片描述

分点关键点

M2-CLIP框架
- M2-CLIP是一个多模态、多任务的自适应框架，旨在将CLIP模型有效迁移到视频动作识别任务中。通过引入多模态适配器，M2-CLIP能够在保持高监督性能的同时，确保在零样本场景中的强泛化能力。
视觉TED-Adapter
- 该适配器通过全局时间增强和局部时间差异建模，显著提升了视觉编码器的时序表示能力。它能够捕捉视频中的时空特征和局部运动模式，从而提高动作识别的准确性。
文本编码器适配器
- 为了增强对动作标签的语义理解，M2-CLIP在文本分支中引入了适配器。这些适配器帮助模型更好地捕捉与动作相关的语义信息，改善了文本和视觉表示之间的对齐。
多任务解码器
- M2-CLIP的多任务解码器包含多个学习任务，旨在提高多模态框架的联合表示能力。通过对比学习、跨模态分类、跨模态掩码语言建模等任务，解码器能够有效地促进不同模态之间的语义对齐。
实验结果
- 实验表明，M2-CLIP在多个视频动作识别数据集上表现优异，尤其是在零样本场景中，展现出强大的泛化能力和较少的可调参数，证明了该框架的有效性和实用性。

中文关键词

多模态
视频动作识别
自适应框架
视觉编码器
文本编码器
多任务解码器
监督学习
泛化能力

AAAI论文合集：

AAAI论文合集

希望这些论文能帮到你！如果觉得有用，记得点赞关注哦~ 后续还会更新更多论文合集！！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。