用CLIP增强视频语言的理解,在VALUE榜单上SOTA!

关注公众号,发现CV技术之美

 写在前面

在本文中,作者总结了针对视频和语言理解评估(VALUE)挑战的方法。作者提出了一种CLIP增强方法 ,将图像文本预训练知识融入到下游视频文本任务中。结合其他几项改进的设计,本文的方法在VALUE基准上的Meta Ave得分相比于之前的SOTA水平提高了2.4%。

 1. 论文和代码地址

c29feb9ad84a087369d783c704bc98ee.png

A CLIP-Enhanced Method for Video-Language Understanding

论文地址:https://arxiv.org/abs/2110.07137

代码地址:未开源

 2. Motivation

视频语言理解越来越受到研究界的关注。最近,NeurIPS2021上提出了视频和语言理解评估(VALUE)基准,这是一个由3类任务(VideoQA, Retrieval, Captioning)和11个数据集组成的统一基准。不同的视频领域和任务类型使其成为一个非常具有挑战性的基准。

受大规模图像-文本预训练(如CLIP)快速发展的启发,作者认为从图像-文本对中学习的知识将有助于视频文本任务。一些开创性的作品利用了预训练CLIP模型,并展示了在文本视频检索任务上的SOTA性能。然而,这些现有的工作是专门为检索任务设计的,因此不能适应其他类型的任务。

作者将预训练好的图像文本知识(即CLIP模型)纳入任务无关框架(即HERO模型),并在各种下游任务(如Retrieval, Captioning)上取得显著的性能改进。结合一些trick,本文提出了一种VALUE基准的混合策略,比baseline高出2.4%的Meta Ave分数。

f5e79237bae5e7866b8faa8442de7e46.png

总的来说,本文的策略在两个方面不同于HERO Baseline:

1)修改了模型架构,以纳入CLIP模型的知识 ,如上图所示;

2)对于不同的下游任务,作者使用不同的微调设置

 3. 方法

本文的方法建立在HERO模型的基础上,HERO模型是基于VALUE基准的baseline模型。在本节中,作者首先简要介绍HERO方法,然后介绍本文改进的设计。

3.1. Baseline Method

0afa23579534d3dd2a4ffadef92c3922.png

如上图所示,HERO由三个核心组件组成:

1)用于文本输入的嵌入层

2)一种用于视频字幕多模态融合和查询表示的跨模态Transformer

3)用于从收集的视频特征学习上下文视频表示的时间Transformer

在HERO中需要处理四个预训练任务(如下所示),MFM(Masked Frame Modeling )和MLM(Masked Language Modeling )与BERT相似,将单词token和帧token用mask token替换之后,在预训练的过程中根据上下文来重建这些被mask的token的信息。

此外,在训练的时候只mask一个模态,降低训练的难度。VSM(Video-Subtitle Matching )旨在学习局部对齐(在视觉帧和字幕句子之间)和全局对齐(在视频片段和字幕句子序列之间)。FOM(Frame Order Modeling )是通过学习随机重排序帧的原始顺序来建模视频的顺序特征的。

710f20ae5d7068cf641be6e6850bde7d.png

3.2. Improved Designs

cb6a67490838070cf26de73d78b01948.png

除了VATEX-EN-R和VATEX-EN-C之外,作者在所有任务中都遵循HERO的结构。对于VATEX任务,作者通过将默认的Roberta文本嵌入层替换为CLIP的文本编码器,构建了CLIP增强的模型,如上图所示。

作者在调整不同任务时使用略有不同的设置:

1)对于QA任务,作者采用全任务训练(AT)设置;对于其他任务,作者采用单任务训练(ST)设置。

2)对于yc2r、yc2c、how2r任务,作者使用resnet+slowfast特征,而对于其他任务,作者使用clipvit+slowfast特征。这些视觉特征主要由VALUE挑战提供。

3)对于yc2r、yc2c、tvc任务,作者使用训练集和验证集数据进行网络调整。

4)作者使用除CLIP增强设置(即VATEX-EN-R和VATEX-EN-C任务)之外的所有任务的HERO预训练权重初始化模型。

在预训练或网络微调期间,作者没有使用额外的数据或特征,也没有使用模型集成技术。

 4.实验

4.1. Results on Test (leaderboard) Set

a012d2108ebffb74cce89ee98a2e0dff.png

应用上面所述的所有改进设计,与baseline相比,本文的混合策略实现了显著改进,如上表所示。

4.2. Analysis of our CLIP-Enhanced Strategy

25d60666cadf77441e93548551b82bce.png

为了评估本文的CLIP增强策略的效果,作者在VATEX-EN-R和VATEX-EN-C验证集上,将本文的方法与SOTA的方法进行比较,结果如上表所示。

除了VATEX-EN-R任务的AT→ST baseline外,本文的CLIP增强方法实现了最佳性能。然而,在检查训练细节后,作者发现,最初的改进确实来自所有任务训练(AT)期间的数据泄漏,即VATEX-EN-R任务的验证样本意外包含在VATEX-EN-C任务的训练集中。

剔除不公平的高分后(标有*),本文的CLIP增强方法取得了最佳性能,明显优于基线(VATEXN-R为2%,VATEX-EN-C为3%)。

然而,作者观察到,本文的CLIP增强方法对于其他类型的数据集(例如how2、tv)是失败的。主要原因似乎是how2或tv数据集与CLIP模型预训练的图像-文本对大不相同。

 5. 总结

今年年初提出的CLIP模型通过简单的结构、大规模的图文预训练,实现了非常好的将图片和文本映射到相同语义空间的能力。目前,也有不少的工作尝试将CLIP学习到图文知识迁移到视频-文本中。

在本文中,作者也尝试了将CLIP的知识迁移到VALUE这个视频-文本的多任务基准上,因此,作者基于HERO模型,将CLIP的预训练的结构和参数加入到HERO模型中,达到了显著的性能提升。

本文中,相对来说,作者的改进还是非常简单的,只是将文本编码器做了一下替换。相信在接下来的一段时间里,CLIP作者泛化能力超强的视觉语言模型,将会进推动多模态领域的一步发展。

▊ 作者简介

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

知乎/公众号:FightingCV

c35d30192677643965a4f69232c935b2.png

END

欢迎加入「视觉语言交流群👇备注:语言

358d11ef001c0b842dbb827e3707616a.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值