Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval

在这里插入图片描述

摘要

文章主要关注:

  • 1、如何表示视频
  • 2、如何融合video和text信息

现有的方案主要是使用continuous feature vectors和discrete text tokens表示视频。


介绍

在现有的多模态任务中,为了模态之间的对齐,主要采用两轮的方案:

  • 1、首先,使用unimodal pretrained models得到一个模态的编码,比如视觉的S3D和Clip模型,text的Bert模型。
  • 2、在visual-text dataset数据集上使用掩码学习和对比学习去对齐在第一轮得到的单模态的特征。

但是这样的方案存在这很大的问题:

  • 1、第二轮中需要大量的数据和计算量
  • 2、第二轮中的video数据需要和下游任务强烈的相关。

方法

视频编码采用

  • Continuous Features
    文献:
    Clip prefix for image captioning
    Just ask: Learning to answer questions from millions of narrated videos
  • Text Tokens
    文献:
    Vx2text: End-to-end learning of video-based text generation from multimodal in- puts.

信息融合采用

  • Multimodal Transformer
    文献:
    Just ask: Learning to answer questions from millions of narrated videos.
  • Text Transformer
    文献:
    Clip prefix for image captioning.

针对于*Just ask: Learning to answer questions from millions of narrated videos.*这篇文章,其中的视频编码方式采用的是S3D,多模态融合方案图如下:
在这里插入图片描述

2种视频编码方式和2种模态融合方式,一共有四种组合。如下图所示:在这里插入图片描述
任务说明:

  • opened video question answering
    给一个video和一个quesition,从一个大型的答案库中找到结果。
  • multichannel question-video retrieval
    给一个question,模型要找到一个和question最相关的带有多种信息(比如speech+video)的视频。

训练

针对于opend video question answering,直接采用NCEloss:

min ⁡ θ − log ⁡ exp ⁡ ( e v , t ⊤ G A ( a l ) ) ∑ i exp ⁡ ( e v , t ⊤ G A ( a i ) ) \min_\theta-\log\frac{\exp\left(e_{v,t}^\top\mathcal{G}_A(a_l)\right)}{\sum_i\exp\left(e_{v,t}^\top\mathcal{G}_A(a_i)\right)} θminlogiexp(ev,tGA(ai))exp(ev,tGA(al))

针对于mutlichannel question video retrieval,使用以下的公式:
min ⁡ θ − 1 2 ( log ⁡ exp ⁡ ( e v , t ⊤ G A ( a l ) ) ∑ i exp ⁡ ( e v , t ⊤ G A ( a i ) ) + log ⁡ exp ⁡ ( e v , t ⊤ G A ( a l ) ) ∑ i exp ⁡ ( e v i , t i ⊤ G A ( a l ) ) ) \begin{aligned}\min_\theta-\frac12(\log\frac{\exp\left(e_{v,t}^\top\mathcal{G}_A(a_l)\right)}{\sum_i\exp\left(e_{v,t}^\top\mathcal{G}_A(a_i)\right)}\\+\log\frac{\exp\left(e_{v,t}^\top\mathcal{G}_A(a_l)\right)}{\sum_i\exp\left(e_{v_i,t_i}^\top\mathcal{G}_A(a_l)\right)})\end{aligned} θmin21(logiexp(ev,tGA(ai))exp(ev,tGA(al))+logiexp(evi,tiGA(al))exp(ev,tGA(al)))

参数说明:其中 e v , t e_{v,t} ev,t代表的论文的模态融合后的向量, G A G_A GA代表的是一个语言预训练模型。

实验

1 实验参数

G G G是文章模型设计的预训练文本encoder,文章在没有特指的地方使用的是MPNet。视频的一个vector代表1.5s的视频。视频的vector寻找和视频编码最相近的15个token作为视频的token。详见文章的3.4小节

2 数据集

文章采用了IVQA、How2QA、ActivityNet-QA、YouCook II 和VATEX这样的优质数据集以及MSRVTT-QA和MSVD-QA带有草绳的数据集。

3 实验结果

3.1 模型能力

如表1所示,当我们在没有第二轮大规模多模式“预训练”的情况下直接微调这些模型时,Text-token + Text transformer的组合(第四种)始终比其他三种变体表现更好。我们认为这是因为这种transformer可以很容易地从预训练的对比多模式模型和对比文本模型中获益,而无需费力地调整它们的空间或从头开始训练多模式转换器。我们还观察到,在与预训练的对比多模式模型[16]类似领域的下游任务上,我们提出的变体通常具有更高的改进,例如,在iVQA和YouCook II上
在这里插入图片描![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/8abf72c23cdc491faf7d84afb767cd9f.png述

3.2 few shot实验

作者在iVQA上采样了一个子集训练四个变体,采用和full-shot一样的迭代次数,来检验模型的差异与能力。实验结果表明,第四个变体的效果很好,说明,在没有第二轮预训练对齐的情况下,视觉信息利用文字token其实是很有效果的。
在这里插入图片描述

3.3 模型对比实验

在这里插入图片描述

  • 当模型使用*End-to-end learning of visual representations from uncurated instruc- tional videos.*这篇文章中的预训练模型作为 F v , F t F_v,F_t Fv,Ft时,带有ASR输入的结果比以往最优的模型高了0.8%的点。
  • 当模型使用Clip作为 F v , F t F_v,F_t Fv,Ft时,模型也展现出了卓越的性能。
  • 针对于那些在第二阶段做了大量对齐任务的模型,如MERLOT、SiasamRea,我们的模型也能有很好的竞争力。

3.4 预训练模型对Text-tokens + Text Transformer的受益程度分析

预训练模型能力的评估方案:

  • SBERT是一个广泛使用的库,其模型是在成对句子上训练的。文章用20个句子嵌入/语义搜索任务的平均性能来衡量预训练文本模型的质量。
  • SimCSE探索了Transformer的无监督对比学习,并提供了各种模型。我们用7个语义-文本相似性(STS)任务的平均性能来衡量预训练文本模型的质量。

预训练模型选择

  • 具有{3,6,12}层的MiniLM(转述MiniLM[23])是一个适合的试验台,因为模型架构相同,但层数不同。

预训练数据集差异

  • paraphrase-mpnet-base-v2, multiqa-mpnet-base-dot-v1, and all-mpnet-base-v2分别在8300万、2.15亿和20亿个句子对上训练。

为什么需要使用SBERT和SimCSE评估模型的能力呢?
因为并不是说模型越复杂,训练的数据越大,模型的文本预训练能力就越好。所以文章采用上述的方案来评估模型的文本预训练能力。
在这里插入图片描述
结果表明:在所有四种变体中,所提出的Text-tokens + Text Transformer在iVQA上的多模式任务性能与预训练的文本模型的质量之间具有最正的相关性。我们还观察到,使用预训练的 Text Transformer进行多模态融合的两个模型都具有正相关关系。

然后,我们比较了来自SimCSE的无监督和有监督的BERT/RoBERTa模型。结果表明随着STS性能的提高,iVQA上的总体下游性能也得到了提高。
在这里插入图片描述

3.5 模型解释

为了理解为什么我们提出的Text-tokens + Text Transformer表现良好,我们选择iVQA首先检查一个简单的统计数据:在视频的答案和检索到的文本标记之间至少有一个单词重叠的测试样本的比例。我们发现这一比例实际上为66.4%,这部分解释了为什么我们在iVQA数据集上获得了巨大的改进。我们在图5中看到了一个成功案例和一个失败案例。在图5a中,模型无法检索视频的答案单词“围裙”,但基于丰富的厨房相关上下文单词,Text Transformer仍然可以正确回答问题。这表明我们提出的模型可以适应标记化过程的不完善。在图5b中,尽管“汤”在视频的前几个片段中被检索为视频的文本标记,但关键的视频片段需要对最后一个片段中的视频进行精细的时间理解,而最大池化后的文本标记主要由其他与食物相关的词主导。但总的来说,根据上述统计,与其他使用连续特征的方法相比,这种Text-tokens + Text Transformer的方法在设计中当然具有很高的可解释性。

3.6 在MSRVTT-QA 和MSVD-QA数据集上的结果

通过对数据集的检查,发现数据集中存在本身的固有问题,比如问题的模棱两可,答案的不匹配等等,所以结果不具备参考性。

  • 30
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值