Less is More: CLIPBERT for Video-and-Language Learning via Sparse Sampling

CLIPBERT:通过稀疏采样的视频语言学习

视频和语言学习(例如,视频问答)的规范方法规定了一个神经模型,该模型可以从脱机提取的视觉模型中的密集视频特征和语言模型中的文本特征中学习。这些特征提取器是独立训练的,通常用于不同于目标域的任务,使得这些固定的特征对于下游任务来说不是最优的。此外,由于密集视频特征的高计算过载,通常很难(或不可行)将特征提取器直接插入现有方法中以便进行微调。为了解决这一难题,作者提出了一个通用框架CLIPBERT,该框架通过使用稀疏采样,在每个训练步骤中只使用一个或几个稀疏采样的视频短片段,从而为视频和语言任务提供了负担得起的端到端学习。实验text-to-video检索和视频问答6个数据证明CLIPBERT优于与(或)现有的方法,利用完整的视频,这表明端到端学习几个稀疏采样剪辑往往比使用更精确的人口从完整的视频中提取离线特性,证明了众所周知的less-is-more原则。数据集中的视频来自不同的领域和长度,从3秒的通用域GIF视频到180秒的YouTube人类活动视频,显示了作者方法的泛化能力。提供了全面的消融研究和彻底的分析,以剖析导致这种成功的因素。(感觉其实就是说明了,利用片段提取特征,要比整个视频的训练效果更好。)

介绍

联合理解视觉和文本线索的能力是智能代理解释物理世界中多模态信号的基本能力。设计了一系列基于真实视频的任务来测试这种能力,包括文本到视频检索、视频字幕、视频问答和视频瞬间检索。解决这些跨模态任务的方法是首先从预先训练的视觉模型中提取密集的视频特征,并从预先训练的语言模型中提取文本特征,然后应用多模态融合在共享的嵌入空间中将这些固定的表示形式组合在一起

在这里插入图片描述

存在的缺点

但存在两个主要缺点:
(i)任务/域中的断开:离线特征提取器通常针对与目标任务不同的任务和域进行培训。例如,从人类活动视频中学习到的动作识别功能不适用于通用域GIF视频上的下游视频问答。
(ii)多模态特征中的断开:从不同模态中学习的特征相互独立。例如,动作识别模型通常是从纯视频数据中训练出来的,没有文本输入,但也应用于视频和语言任务。端到端任务特定的微调提供了一种缓解这些固有断开的方法。然而,与大多数现有工作一样,从完整的视频帧序列中提取特征会对内存和计算造成过度需求,这使得直接将特征提取器插入视频语言学习框架以实现高效的端到端微调变得困难甚至不可行。

基于此,我们提出了CLIPBERT,这是一个通用而有效的端到端视频和语言学习框架。

CLIPBERT在每个训练步骤仅从全长视频中稀疏地采样一个或几个短片段。假设是稀疏片段的视觉特征已经捕获了视频中的关键视觉和语义信息,因为连续片段通常包含来自连续场景的相似语义。因此,少量的剪辑就足以用于训练,而不是使用完整的视频。

第二个区别方面涉及模型权重的初始化(即通过预训练进行转移)。直观地说,通过预训练从大规模图像数据集学习的视觉特征也应该有助于视频理解任务,依赖于静态视频帧中的视觉线索。为了研究这一点,我们使用2D架构而不是3D特性作为视频编码的视觉支柱,这使我们能够利用图像-文本预训练的能力来理解视频-文本,同时具有低内存成本和运行效率的优势。

相关工作

视频和语言理解

除了使用固定的特征和同域数据(即仅针对视频文本任务的视频文本预训练),我们的工作重点是端到端训练和将图像文本预训练应用于视频文本任务。

动作识别

模型通常使用从视频中随机取样的短片段进行训练

基于稀疏采样的CLIPBERT

图1(下)给出了CLIPBERT框架的概述。它采用稀疏采样策略,在每个训练步骤只使用一个或几个样本剪辑,而不是完整的视频。每个采样的剪辑都用一个视觉主干模型独立编码,视觉特征随后被输入一个跨模态模块,该模块提取剪辑及其相关文本表示之间的关系。来自所有抽样剪辑的独立预测被融合在一起(例如,通过均值池化),以在视频层面获得共识。基于此共识计算特定任务的损失以学习模型参数。

公式
我们表示一个视频文本对为V(用于视频)和S(用于文本序列)。视频节点V进一步表示为N等持续时间的 [ c 1 , c 2 , … c N ] [c_1, c_2,…c_N] [c1,c2cN]。这个标准范例可以表述为:

在这里插入图片描述
F 分别为视觉编码器和语言编码器
上标SG梯度,意味着梯度不能通过两个编码器反向传播
H 是跨模态编码器和预测器,模型之间的编码视频/语言输入和作出预测的关系
p 是视频级预测
在这里插入图片描述

然后基于预测值和真实值计算损失函数。

用于训练的稀疏抽样

在这里插入图片描述
F是视觉/语言编码器。与使用离线视觉/语言编码器的公式1不同,CLIPBERT是端到端可训练的,允许特定任务的损失进一步优化编码器,学习更好的表示。来自所有抽样片段的独立预测被汇总以得出共识。los是基于视频级共识计算的:
在这里插入图片描述
其中G 为预测/得分聚合函数(例如,均值池)。

CLIPBERT的稀疏训练策略可以解释为一种数据增强:在不同的训练步骤中使用来自同一视频的不同片段子集,提高了模型的泛化能力。在这个意义上,它类似于图像分类任务中常用的随机裁剪[56,21]。它还受到了动作识别方法的启发[55,62,66,14],其中视频分类器是在采样的剪辑上训练的。

模型架构

图2给出了CLIPBERT架构的概述。对于视觉编码器fv,我们使用2D CNN架构resnet - 50

在这里插入图片描述

训练集

COCO Captions [5] and Visual Genome Captions [29]
这两个数据集总共包含560万个图像-文本对,在151K图像

实验

文本到视频检索。
(i) MSRVTT包含10K Y ouTube视频,其中包含200K描述。我们使用7k训练视频进行训练+验证,并报告1K测试集的结果。

为了我们的消融研究。选取中未使用的测试视频中取样1K个视频字幕对来创建一个本地val集。

DiDeMo包含10K Flickr视频,带有40K句注释。

(iii)ActivityNet Captions包含20K Y ouTube视频,并附有100K句注释。培训集包含10K视频,我们使用4.9K视频的val集合来报告结果。
对于MSRVTT,我们评估视频检索的标准语句。对于DiDeMo和ActivityNet字幕,我们按照来评估段落到视频检索.

其中视频的所有句子描述都连接起来,形成一个段落进行检索。

视频问答

i)TGIF-QA包含165K对的QA 和72K GIF视频。
我们实验了3个TGIF-QA任务: 重复动作和状态转换用于选择题QA,框架QA用于开放式QA。
(ii)MSRVTT-QA 基于MSRVTT中的视频和字幕创建,包含10K个视频和243K个开放式问题。
MSRVTT多项选择题测试是一种以视频为问题,以字幕为答案的多项选择题任务。每个视频包含5个字幕,只有一个正面匹配。对于所有的QA任务,我们使用标准的训练/val/测试分割和报告准确性来衡量绩效。

不同数据集的平均视频长度
在这里插入图片描述

稀疏抽样分析

如果没有特别说明,我们从全长视频中随机抽取一帧(Ntrain=1、T=1)进行训练,使用中间帧( N t e s t N_{test} Ntest=1)进行推理,输入图像大小为448。所有消融结果均在MSRVTT检索本地l和MSRVTT- qa验证组上。

分析1:不需要很大的图片在这里插入图片描述

分析2:不需要密集采样(2帧就够了)
在这里插入图片描述

更多的剪辑有助于推断吗?: 是的,会提高性能
在推断时,我们将来自多个密集抽样剪辑的预测得分作为最终得分。为了说明这种策略是如何影响性能的,我们甚至选取了视频中的{1,2,4,8,16}片段,并在推断时平均他们的个人预测。在本实验中,我们提供了两个不同训练帧数的模型:一个是单帧训练,另一个是双帧训练。两种模型都使用单一剪辑进行训练。在这里插入图片描述
更多的剪辑在训练中有帮助吗?

利用聚合函数作为最终得分,计算训练损失

分数聚合函数:平均池、最大池和LogSumExp

在平均池和最大池中,交叉剪辑池是在logits上执行的,然后是softmax操作符。在LogSumExp中,每个剪辑的日志首先通过一个元素指数运算符提供,然后是一个跨剪辑平均池。

所有模型使用每个剪辑一个帧进行训练,使用16个剪辑进行推理,即T=1和Ntest=16。

在这里插入图片描述

一般来说,添加更多的剪辑会有所帮助,而第二个添加的剪辑可以获得最大的性能增益

稀疏随机抽样 VS 致密均匀采样

直观地说,这种稀疏随机采样策略可以解释为一种数据增强,其中使用视频的不同片段子集来计算不同训练步骤的损失。
在这里插入图片描述

在这里插入图片描述

分析影响

图像-文本预训练的影响

我们得到了以下主要结论:

  • (i)较大的输入图像尺寸有助于提高模型性能,但当图像尺寸大于448时,增益会减小;
  • 从每个剪辑稀疏采样2帧的效果与密集采样16帧的效果相当,表明仅一或两帧就足以进行有效的视频和语言训练;在融合不同帧的信息时,均值池比3D Conv更有效;
  • 更多的推断剪辑有助于提高模型性能;跨片段预测的聚合策略影响最终表现;
  • (iv)稀疏(随机)采样比密集均匀采样更有效,同时存储和计算效率更高;
  • 预训练图像-文本对视频-文本任务有好处;
  • vi)端到端训练提高模型性能。

与最新技术的比较

文本到视频检索。

在这里插入图片描述

这些方法是在HowTo100M[46]的136M剪辑标题对上预先训练的。

我们期望通过在训练和推理过程中采样更多的片段,CLIPBERT的性能会得到进一步的提高。同时,我们还鼓励今后的工作探索如何将额外的输入信号(如音频)组合到CLIPBERT框架中,以获得更好的性能。

视频问答

总结

我们提出了CLIPBERT,一个用于端到端视频和语言学习的通用框架,它采用稀疏采样,在每个训练步骤中只使用视频中的几个采样短片段。不同任务的实验表明,CclipBER优于(或等同于)具有密集采样的离线特征的最先进的方法,这表明“少是多”原则在实践中是非常有效的。综合消融研究揭示了导致这一成功的几个关键因素,包括稀疏采样、端到端训练和图像文本预训练。

由于CLIPBERT是基于2D CNN设计的,并且是在图像文本语料库上预训练的,因此它也直接适用于图像文本下游任务,例如基于图像的问答。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值