论文标题
A Multimodal, Multi-Task Adapting Framework for Video Action Recognition 面向视频动作识别的多模态、多任务自适应框架
论文链接
A Multimodal, Multi-Task Adapting Framework for Video Action Recognition论文下载
论文作者
Mengmeng Wang, Jiazheng Xing, Boyuan Jiang, Jun Chen, Jianbiao Mei, Xingxing Zuo, Guang Dai, Jingdong Wang, Yong Liu
内容简介
本文提出了一种名为M2-CLIP的多模态、多任务自适应框架,旨在解决视频动作识别中的挑战,兼顾高监督性能和强泛化能力。M2-CLIP通过在视觉和文本分支中引入多模态适配器,增强了各自的架构。具体而言,设计了一种新颖的视觉TED-Adapter,能够进行全局时间增强和局部时间差异建模,以提高视觉编码器的时序表示能力。同时,文本编码器适配器的引入加强了语义标签信息的学习。此外,M2-CLIP还设计了一个多任务解码器,利用丰富的监督信号来满足强监督性能和泛化能力的需求。实验结果验证了该方法的有效性,M2-CLIP在监督学习中表现出色,同时在零样本场景中保持了强大的泛化能力。
分点关键点
-
M2-CLIP框架
- M2-CLIP是一个多模态、多任务的自适应框架,旨在将CLIP模型有效迁移到视频动作识别任务中。通过引入多模态适配器,M2-CLIP能够在保持高监督性能的同时,确保在零样本场景中的强泛化能力。
-
视觉TED-Adapter
- 该适配器通过全局时间增强和局部时间差异建模,显著提升了视觉编码器的时序表示能力。它能够捕捉视频中的时空特征和局部运动模式,从而提高动作识别的准确性。
-
文本编码器适配器
- 为了增强对动作标签的语义理解,M2-CLIP在文本分支中引入了适配器。这些适配器帮助模型更好地捕捉与动作相关的语义信息,改善了文本和视觉表示之间的对齐。
-
多任务解码器
- M2-CLIP的多任务解码器包含多个学习任务,旨在提高多模态框架的联合表示能力。通过对比学习、跨模态分类、跨模态掩码语言建模等任务,解码器能够有效地促进不同模态之间的语义对齐。
-
实验结果
- 实验表明,M2-CLIP在多个视频动作识别数据集上表现优异,尤其是在零样本场景中,展现出强大的泛化能力和较少的可调参数,证明了该框架的有效性和实用性。
- 实验表明,M2-CLIP在多个视频动作识别数据集上表现优异,尤其是在零样本场景中,展现出强大的泛化能力和较少的可调参数,证明了该框架的有效性和实用性。
中文关键词
- 多模态
- 视频动作识别
- 自适应框架
- 视觉编码器
- 文本编码器
- 多任务解码器
- 监督学习
- 泛化能力
AAAI论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!