【文献翻译】VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

Vx2Text:基于视频的多模态文本生成的端到端学习

摘要

  我们提出了VX2TEXT,一个从视频加文本、语音或音频组成的多模态输入中生成文本的框架。为了利用已被证明在建模语言方面有效的Transformer网络,每个模态首先通过一个可学习的标记器转换为一组语言嵌入。这使得我们的方法可以在语言空间中进行多模态融合,从而不需要专门的跨模态融合模块。为了解决连续输入(例如,视频或音频)上标记化的不可微性问题,我们采用了一种能够进行端到端训练的松弛方案。此外,与仅有编码器的先验模型不同,我们的网络包含一个自回归解码器,用于从由语言编码器融合的多模态嵌入中生成开放文本。这使得我们的方法具有充分的生成性,可以直接适用于不同的"视频+ x到文本"问题,而不需要为每个任务设计专门的网络头。所提出的框架不仅在概念上简单而且非常有效:实验表明,我们基于单一架构的方法在三个基于视频的文本生成任务- -字幕、问答和视听场景感知对话上优于最先进的方法。

1. 前言

  人工智能的基本目标之一是开发能够可靠地感知真实世界并以自然语言与人类交流的会话多模态系统。近年来,通过引入大规模的评估视听信息解读能力的基准,以及将这种理解转化为自然语言的能力,该领域取得了显著的进展。主要的例子包括图像或视频描述数据集[ 11、37、51、24、56、28],问答数据集[ 5、14、54、58、19、35、46、26],以及视听对话数据集[ 12、1 ]。为了在这些基准上表现良好,模型必须实现几个目标:( 1 )从每个单独的模态中提取显著信息;( 2 )有效地结合不同的线索来处理给定的查询;( 3 )生成并以人类可理解的文本形式呈现结果。
  在本文中,我们提出了VX2TEXT,一种简单的基于视频的方法,将这三个步骤嵌入到一个统一的、端到端的可训练框架中。目标( 1 )和( 2 )是利用模式特异性分类器将每个输入信号中的语义转换到一个共同的语义语言空间中完成的,这使得应用强大的语言模型可以直接解释多模态内容。具体来说,我们的方法利用在现有数据集[ 10、15]上预训练的每个分类器预测的顶级类的文本标签,并将其转换为词嵌入,使用预训练的语言模型[ 13、39]。该方案的好处在于,它开辟了借助T5等强大的语言编码器进行多模态融合的可能性[ 39 ],而不需要设计专门的跨模态网络模块[ 32、29、57、34],也不需要借助前导任务来学习组合不同的输入信号[ 44、55、29 ]。这样的设计不仅简单得多,而且与以前的方法相比也有更好的性能。
  为了实现目标( 3 ),我们使用了一个生成式文本解码器[ 39 ],它将编码器计算的多模态特征转化为文本,从而实现了用人类可理解的语言生成结果的目标。虽然先前基于编码器结构[ 44、45、32 ]的多模态工作仅限于在涉及从固定文本候选集合中选择的设置中操作,但我们的生成方法可以用于开放的句子生成,例如对话应用中的要求。此外,文本解码器的使用使我们能够以相同的架构处理不同的"视频+ x到文本"问题(例如,回答和生成问题,对话,以及描述),而不必为每个任务设计专门的网络头。
  我们将这些在概念上截然不同的步骤整合到一个单一的架构中,并对其进行端到端的训练。为此,( 1 ) arXiv:2101.12059v2 [ cs . 202年1月29日,我们对连续模态(例如,音频或视频)采用差分标记化,使得包括模式特异性分类器在内的整个模型在最终目标上是可训练的。我们的实验表明,我们的端到端训练的统一框架比单独学习的模块产生了显著的性能增益。我们的VX2TEXT基于单一架构,在没有任何多模态前文本预训练的情况下,以生成的方式进行训练,在字幕、问答和对话三种不同的文本生成任务上都优于当前的先进水平。

2. 相关工作

  在视觉和语言领域取得了重大进展,尤其是在设计与人类进行自然语言交互的多模态会话代理方面,例如问答( QA ) [ 5、14、54、58、19、35、46、26]和视听对话[ 12、1 ]。针对这些任务[ 33、3、23、42、17、41、25、52、20、27、30、55],介绍了几种方法。
  例如,Shah等人[ 42 ]提出利用问答和问题生成的循环一致性来提高图像问答模型对重述问题的鲁棒性。与我们的方法不同的是,实际的问答句并没有被解码。Yang等人[ 52 ]探索了一种仅使用编码器的模型,使用BERT表示和视觉特征的多模态融合进行视频问答[ 26 ]。作为一种区分性的方法,它仅限于从提供的答案选择中进行选择。Le等人[ 25 ]提出了一种多模态注意力生成模型,该模型融合了文本和视听特征的信息,为视听场景感知对话生成回复。虽然本文和其他一些最近的工作[ 55 ]已经利用解码器从多模态输入中生成文本,但我们相信我们是第一个通过系统的消融实验来证明与应用于相同编码器模型的判别学习相比,使用解码的生成学习所取得的性能改善。此外,我们注意到[ 25、55 ]中提出的网络包含专门的跨模态块,正如上文所指出的,它与我们的方法非常不同地接近任务。与这些先前工作的实验比较表明了我们设计的优越性能。
  还有一族基于多模态Transformer的模型[ 44、55、29、45、32]受到语言领域[ 13、38、39]中前文任务成功的启发。这些工作依赖于在大规模数据集上进行昂贵的前文本训练来学习多模态表示。然而,我们的VX2TEXT可以在统一的语言空间中进行多模态融合,不需要多模态前文训练。
  我们注意到,我们并不是第一个提出使用从视听通道识别的类别标签作为语言模型的输入。例如,检测到的物体标签已被用于图像描述[ 53、4 ]和视频QA [ 26 ]。然而,与这些先前的工作不同的是,我们在连续模态上采用了可微的表征,这使得整个模型相对于最终目标可以端到端的训练。我们的实验证明了我们方法的性能优势。

3. 技术途径

  我们的目标是设计一个统一的框架,可以从视频和伴随的模态(例如,音频,语音或对话历史)生成开放的文本。我们特别感兴趣的是视频描述、问答和视听场景感知对话等任务。在形式上,设x = { x1,x2,…,xM }为多模态样本,其中xm表示第m个模态。我们指定我们的模型所要处理的任务,使用一个特殊任务token t∈{ Answer,Caption,talk,… }。我们的目标是训练一个模型F ( t , x1 , x2 , … , xM ; W),该模型生成一个文本令牌序列y = [ y1 , y2 , … , yN],代表任务t的输出。W表示其可训练参数。根据任务的不同,我们生成的文本可能以答案、问题、对话中的交互回复或字幕的形式出现。
  在更高的层次上,我们的方法可以总结为三个步骤。首先,我们利用预训练的模式特异性分类器来获得每个模态的最可能的类别预测。然后,我们通过我们提出的可微标记化方案将预测类别的文本名称嵌入到一个语义语言空间中,从而实现了包括模式特异性分类器在内的整个系统的端到端训练。最后,我们使用生成式编码器-解码器语言模型[ 39 ]将多个模态的嵌入向量映射到自由文本中。这使得我们可以将不同的"视频+ x到文本"问题重新表述为单个序列到序列的任务。我们现在对其中的每一个步骤都进行了详细的介绍。

3.1.可微标记化

  大多数先前的方法[ 25、52、29 ]依赖于额外的跨模态融合模块来组合来自不同模态的输入信号。这使得不同模态的集成变得非常繁重,计算成本很高。相反,我们提出通过一个简单的方案将不同的输入信号映射到一个共同的语义语言空间中进行多模态融合。我们首先利用训练好的模式特异性分类器在预定义的语言词汇上预测一个大的类别集合。其中包括训练用于识别大量动作集合的视频模型[ 10 ],或区分广泛声音类别的音频分类器[ 15 ]。之后,我们可以利用现有的语言嵌入模型,将每个模式特异性分类器预测的顶级文本类别映射到一个共同的语义语言空间。
 虽然在概念上很简单,但这种方法有一些弱点。首先,预训练的模式特异性分类器可能无法泛化到目标数据。其次,每个分类器的顶级类别的选择是不可微的,因此无法根据我们的目标任务对模式特异性分类器进行微调。为了解决这些局限性,我们提出了一个可微的标记化方案,该方案可以实现包括模式特异性分类器在内的整个系统的端到端训练。
用{ N1,N2,…,NM }表示一组模态特异性网络。对于每个模态m,我们使用网络模型Nm在预定义的类别空间Cm = { 1,…,Cm }上进行分类任务的预训练。设pm ( c | x )∈[ 0、1 ]是Nm ( xm )对范畴c∈{ 1,…,Cm }的规范化概率输出,使得∑Cm c = 1 pm ( c | x ) = 1 .我们通过( 1 )从每个模态m的概率输出中采样Km个类别(不替换),然后( 2 )通过矩阵乘法嵌入采样类别的名称,将这些分类预测转换为一组文本嵌入向量:
在这里插入图片描述
 其中Wm∈RCm × D是学习到的Cm类别标记的D维嵌入,ckm是一个独热向量,它编码来自模态m的第k个采样类别的名称。
 值得注意的是,在训练过程中,采样过程是必要的,因为直接选择顶预测会丢失预测分布中的丰富信息,并使训练过程产生偏差[ 18 ]。为了使采样可微,我们利用Gumbel - Softmax技巧[ 18 ]和令牌化的可微近似[ 8 ]。具体来说,我们通过向预测概率分布pm∈R1 × Cm中添加Gumbel噪声gm∈R1 × Cm来重新参数化pm∈R1 × Cm,其中gm = -log ( - log ( u )) ),u⋅Uniform ( 0、1 )。然后,我们从每个模态m的重新参数化分布" pm∈R1 × Cm "中采样前Km类别。
 在这种重新参数化的分布下,选择前Km个类别等价于从原始分布中采样Km个类别。为了详细的证明,我们参考[ 22 ]。但是,选择前Km个类别的过程仍然不可微。为了解决这个问题,我们使用了一个直通估计[ 18 ]。具体来说,在前向传播过程中,我们对前Km个类别进行抽样,如上所述。相反,在反向传播过程中,我们估计每个类别的梯度c as:
在这里插入图片描述
 这导致了一个统一的提法,它可以实现整个系统的端到端学习,包括特定模态的分类器。此外,注意到嵌入变换Wm可以使用预训练的语言嵌入空间进行初始化[ 39 ]。这种简单的过程提供了将所有模态转换到同一语义语言空间的优势,从而无需设计复杂的跨模态融合块。此外,我们可以无缝地利用强大的语言编码器来完成我们的目标任务,这是非常有益的。
见图1。我们提出的框架示意图。VX2TEXT接收作为输入的任务说明符,以及带有伴随模态的视频,如音频和语音。每个模态通过模式特异性分类器和可微的令牌化方案转换为令牌的集合,从而实现端到端的训练。最后,编码器-解码器架构在语言空间中进行多模态融合,并生成针对给定任务的输出开放式文本。
见图1。我们提出的框架示意图。VX2TEXT接收作为输入的任务说明符,以及带有伴随模态的视频,如音频和语音。每个模态通过模式特异性分类器和可微的令牌化方案转换为令牌的集合,从而实现端到端的训练。最后,编码器-解码器架构在语言空间中进行多模态融合,并生成针对给定任务的输出开放式文本。

3.2.生成式编码器-解码器

  随着不同模态嵌入到同一语言空间中,我们可以直接使用文本编码器来融合多模态信息。我们将表示任务定义t的嵌入向量et与从不同模态计算得到的嵌入向量集合成一个L向量序列,并输入到文本编码器FEn中:
在这里插入图片描述

 其中eS是一个特殊的"分隔符"的嵌入,z∈RL × d′是一个维数为d′的L向量序列.文本编码器产生的特征z从多个模态中捕获任务特定的信息。之后,我们将新的表示z输入到解码器中进行文本生成。我们的解码器以自回归的方式生成结果,这意味着它使用先前解码的输出作为其输入的一部分。形式上,我们可以这样写:
在这里插入图片描述

  其中{ gi∈RT ’ }是T ‘个令牌字典上的第i个解码分布,{ ’ g1,…,’ gi - 1 }是历史令牌。当产生" Endof-Sequence "令牌时,解码过程将终止。

3.3. 训练

  在训练过程中,我们遵循教师强制[ 49、39 ]的惯常做法,即在相应的位置用"基本事实"标记gi代替解码历史:
在这里插入图片描述

  然后,我们的整个系统用标准的交叉熵损失进行训练:
在这里插入图片描述

  式中:n为有效令牌数。值得注意的是,本设计支持可变长度文本的生成。在这里,我们展示了单个训练样本的目标,但在实际中,我们优化了小批量的样本。

3.4.推论

 之前的大多数多模态转换器[ 55、29 ]都依赖于特定的任务头来处理不同的任务。具体来说,为生成性任务设计的头通常与判别式设置中使用的头有很大差异。然而,我们的VX2TEXT可以无缝地处理这两种类型的任务,而不需要改变其体系结构。
 对于生成性任务,例如字幕生成和视频对话,我们沿用之前的工作,使用Beam Search [ 41、25 ] (波束宽度设置为5)或Greedy Decoding [ 28 ]来生成连贯的句子。相反,对于判别性任务,例如TVQA上的问答,模型需要从给定的候选集中挑选最可能的答案。在这种情况下,我们将整个候选答案集作为模型(使用分隔符标记它们)的额外输入,然后在自回归解码器定义的概率分布下评估每个候选输出。最后,我们在选择中选择概率最高的答案作为预测。这样,通过统一的编码器-解码器结构,我们的模型可以同时处理生成性和判别性任务。在我们的实验中,我们证明了解码器中存储的知识有助于我们的生成式VX2TEXT优于其判别式对应物以及先前的判别式模型(见4.4节和4.5节)。

3.5.实现细节

 我们使用在Dynamics [ 10 ]上训练好的R ( 2 + 1 ) D-34 [ 47、16 ]作为我们的视频主干网络,使用Dynamics的400个动作类别作为视频词汇。我们遵循[ 16 ]中描述的视频预处理过程:在训练过程中,我们随机采样32帧的片段;在测试过程中,我们统一采样10个片段,并构建一个预测池。我们从池中采样Kv = 12个预测类别来表示视频中的动作/事件。值得注意的是,对于来自不同片段的预测,采样序列在时间上是有序的;来自同一片段的预测根据置信度得分进行排序。
 作为音频骨干,我们使用CNN14 [ 21 ],它在AudioSet [ 15 ]上训练,可以识别527个声学事件。从相应的视频片段中采样16,000 Hz的音频片段,然后进行处理以提取Log - mel频谱图,并将其输入到CNN中。我们使用Ka = 6的预测类别来表示音频片段中的声学事件。我们在附录中给出了超参数Kv和Ka的分析。
 我们使用T5 - base [ 39 ]作为文本转换器,包括文本标记嵌入层、编码器和解码器。我们使用HuggingFace [ 50 ]中提供的预训练权重来初始化文本转换器。我们注意到,除了这些初始化,我们没有使用任何形式的预训练,并且模型的优化是在每个单独的任务上使用给定的训练集完成的。
 我们使用每GPU 6个样本的批处理大小,并将训练分布在32个NVidia V100 GPU上。我们使用学习率为0.0001的Adam来优化我们的模型。我们训练了40个历元的模型,在第20和30个历元的学习率除以10。使用我们的默认设置,AVSD、TVQA和TVC的训练时间分别约为12、15和20小时。
见图2。AVSD验证集上不同多模态输入组合对VX2TEXT视听场景感知对话任务性能的影响。每一种模态都有助于提高性能,尤其是视频信号。
见图2。AVSD验证集上不同多模态输入组合对VX2TEXT视听场景感知对话任务性能的影响。每一种模态都有助于提高性能,尤其是视频信号。
见图3。VX2TEXT在TVQA验证集上针对不同输入模态组合的视频问答性能。(以色彩观赏最佳。)
见图3。VX2TEXT在TVQA验证集上针对不同输入模态组合的视频问答性能。(以色彩观赏最佳。)

4.实验

 在这一部分中,我们评估了VX2TEXT在三个不同任务上的有效性:( 1 )视频问答,( 2 )视听场景感知对话,( 3 )视频描述。我们在这三个任务中分别使用了三个基准数据集:TVQA,AVSD和TVC。

4.1.数据集和评估指标

音视频场景感知对话 AVSD [ 2 ]是由猜字游戏数据集中描述视频的人类对话组成的基准[ 43 ]。对话框的形式是每个视频有10个问答对。这些问题是由一个没有观察过视频的人提出的。提问的目的是尽可能多地收集有关视频内容的信息。这是通过与看过视频的人进行对话,并提供详细的问题答案来完成的。算法在这个基准上的评估是通过它们以文本形式回答问题的能力。与之前的工作[ 41 ]一样,我们采用以下评价指标:BLEU- { 1,2,3,4 } [ 36 ]、CIDEr [ 48 ]、METEOR [ 7 ]和ROUGE - L [ 31 ]。我们在培训上遵循培训的一般做法
视频问答 TVQA [ 26 ]是一个由从6部电视剧中收集的视频片段组成的数据集。给定一个视频片段及其对应的演讲,本任务的目标是回答关于该视频片段的多项选择题。每个视频片段有7个问题,每个问题有5个候选答案。总的来说,该数据集由来自21,800个片段的152,500个QA对组成。语音数据以人工标注的转录本的形式出现。我们使用训练分割来训练我们的模型,并在验证集上报告结果。我们采用top - 1准确率作为标准评价指标。
视频字幕 TVC [ 28 ]是一个最近提出的视频描述基准。TVC数据集包含了与TVQA相同的视频集,但以不同的方式将视频分割成片段。我们遵循先前工作[ 28 ]中介绍的协议,并将人工转录的语音作为我们模型的输入。我们采用以下评价指标:BLEU - { 1,2,3,4 } [ 36 ],CIDEr [ 48 ],METEOR [ 7 ]和ROUGE - L [ 31 ]。在数据集的验证集上进行性能评估。

4.2.评估每种模态的重要性

  我们首先研究个体模态对基于视频的文本生成性能的影响。我们通过使用不同的输入组合来训练和测试我们的模型。AVSD数据集的结果如图2所示,TVQA数据集的结果如图3所示。基于这些结果,我们观察到每种模态都为两种任务提供了性能增益。这一点对于专门为多模态理解而设计的AVSD基准来说尤其引人注目。此外,值得注意的是,与仅依赖文本输入(问题与历史)的模型版本相比,在AVSD的所有指标下,视频模态的添加都产生了非常显著的增益。这一趋势在TVQA数据集上同样成立。最后,我们还观察到,利用先前的历史

4.3.可微标记化的影响

 在本节中,我们展示了我们提出的可微标记化方案的有用性。为了这个目的,我们考虑并检验了两个比较基线。第一种,命名为多模态特征嵌入( Multimodal Feature Embedding ),使用带有层归一化( Layer Normalization )的模式特异性全连接层[ 6 ],将音视频分类器的连续预测映射到语言嵌入空间。该方案类似于HERO [ 29 ]中输入嵌入模块实现的策略,它提供了一种可选的方式来实现端到端的训练。
 对于第二个基线,我们将我们的可微标记化替换为Frozen标记化,这意味着相对于目标任务,只有文本转换器被训练,而模式特异性网络被冻结。使用两种任务的所有可用输入模态,AVSD的结果如图4所示,TVQA的结果如图5所示。可以观察到,Frozen标记化取得了比多模态特征嵌入更好的性能。这本身就已经提供了使用模式特异性分类器的顶级预测将所有模态映射到语言空间中所获得的好处的证据。然而,值得注意的是,可微标记化通过端到端的联合优化整个模型,进一步提升了两个任务的性能。

4.4.生成模型的好处

 为了说明我们的统一生成公式的好处,我们提出了一个比较,涉及在TVQA上训练和评估的四个模型。第一个模型是我们默认的VX2TEXT模型,记为Generative模型。第二个模型是我们的系统的判别版本,通过移除解码器并在从编码器获得的池化嵌入中附加一个分类头来获得。这种变体通过端到端的训练来预测5个候选答案的分布。它与HERO [ 29 ]中采用的方法类似,只不过它使用了我们的可微标记化作为模态融合机制。作为参考,我们发现我们的判别基线在TVQA上取得了与HERO (未经预训练)相当的性能。
 更进一步,为了展示我们的生成性提法的灵活性,我们在VX2TEXT的基础上增加了两个使用多个生成性训练目标的变体。生成式(问题回答与生成) '有两个训练目标:一个是用于视频问答,另一个是用于视频问题生成。在生成问题时,我们的模型将问题作为任务标记t,真实答案作为输入的一部分。在这种模式下,系统被要求以生成性的方式从基本真值答案中预测基本真值问题。
 在"生成式(循环一致性) “中,我们的模型执行以下步骤:1 )给定基础真值问题Q,生成答案A′;2 )基于A′生成问题Q′′;3 )基于Q′′输出答案A′′。最终目标是|Q′′ − Q|,问题一致性的线性组合答案一致性| A″-A |以及问答损失和问题生成损失。这种多损失目标最初是由Shah等人[ 42 ]针对基于图像的QA问题提出的。对于这两个基线的详细信息,请参见我们的附录。
 图6显示了当我们改变用于训练的QA对的数量时,这四个模型的性能。我们以生成式方式训练的VX2TEXT模型在所有训练集大小上都显著优于其判别模型,但当数据急剧减少时更是如此。例如,当使用10 %的训练数据时,Generative和Discriminative之间的准确率差距为29.9 % ( 64.1 %和34.2 %)。我们认为,这种较大的性能差异来自于文本解码器中存储的有益常识性知识。
 此外,我们的生成公式允许VX2TEXT在多个任务中进行训练,而不需要改变架构或添加网络头。如图所示,这转化为进一步的性能改进。例如,在Cycle consistency的帮助下,我们的VX2TEXT在使用10 %的数据时达到了66.1 % ( vs Generative的64.1 %)的准确率。我们的VX2TEXT在仅使用50 %训练样本的情况下进行了Cycle - Consistent训练,其性能优于在全训练集( 100 %的样本)上训练的判别模型。
见图4。在AVSD验证集上与多模态特征嵌入或冻结标记化的基线进行性能比较。(以色彩观赏最佳。)可微的标记化能够针对最终目标进行端到端训练,并获得最好的性能。
见图4。在AVSD验证集上与多模态特征嵌入或冻结标记化的基线进行性能比较。(以色彩观赏最佳。)可微的标记化能够针对最终目标进行端到端训练,并获得最好的性能。
见图5。在TVQA验证集上研究不同模态融合机制对系统QA性能的影响。(以色彩观赏最佳。)可微的标记化比其他方案有更大的优势。
见图5。在TVQA验证集上研究不同模态融合机制对系统QA性能的影响。(以色彩观赏最佳。)可微的标记化比其他方案有更大的优势。
见图6。我们的VX2TEXT的鉴别变体与默认的生成式版本在TVQA上的比较。生成式版本对于所有训练集大小都取得了更高的准确率。此外,生成式使具有相同模型的多任务学习(见"问答与生成"和"循环一致性")成为可能。特别是对于小规模的训练集,准确率有了进一步的提高。
见图6。我们的VX2TEXT的鉴别变体与默认的生成式版本在TVQA上的比较。生成式版本对于所有训练集大小都取得了更高的准确率。此外,生成式使具有相同模型的多任务学习(见"问答与生成"和"循环一致性”)成为可能。特别是对于小规模的训练集,准确率有了进一步的提高。
见表1。在有、无字幕输入的AVSD测试集上与最先进的方法进行比较。我们的模型在两种设定下都取得了最好的结果。

见表1。在有、无字幕输入的AVSD测试集上与最先进的方法进行比较。我们的模型在两种设定下都取得了最好的结果。
见表2。在TVQA的验证集和测试集上与视频问答任务的最先进水平进行比较。在测试集上,VX2TEXT取得了比HERO版本更好的性能,HERO版本使用了7.6 M额外的多模态样本进行预训练。数字代表Top - 1准确率( % )。

见表2。在TVQA的验证集和测试集上与视频问答任务的最先进水平进行比较。在测试集上,VX2TEXT取得了比HERO版本更好的性能,HERO版本使用了7.6 M额外的多模态样本进行预训练。数字代表Top - 1准确率( % )。

4.5.与《国家艺术》的比较

 在这一部分中,我们在三个独立的基准上将我们的单一模型与最先进的模型进行了比较。
AVSD我们在这个基准上的比较结果如表1所示。我们的VX2TEXT显著地改进了现有的方法,不管是有文本描述还是没有文本描述作为输入的一部分。值得注意的是,最先进的MTN系统[ 25 ]使用复杂的跨模态注意力模块来融合来自不同模态的信息。MTNTMT [ 30 ]利用复杂的辅助损失来对齐MTN的嵌入空间。然而,即使没有文本字幕这种非常强大的信息源,我们的VX2TEXT也取得了比MTN更好的性能。当在输入中加入文本字幕时,我们的VX2TEXT的性能进一步提升,并显著优于MTN - TMT。这进一步证明了我们的简单方案对于模态整合的有效性。
TVQA由于TVQA的许多方法使用对象/帧级别的特征,为了公平比较,我们在VX2TEXT中将检测到的对象类别[ 26 ]作为该评估的额外输入模态。由于训练目标检测器的复杂性,这里我们使用Frozen标记化,并将可微标记化的应用留给未来的工作。
从表2可以看出,在TVQA上,在没有额外的多模态前文本训练数据的情况下,我们的VX2TEXT在验证集和测试集上都显著优于之前的所有方法。在测试集上,我们的VX2TEXT比之前最先进的HERO系统提高了1.4 %,HERO系统在7.6 M额外的样本上采用了昂贵的多模态前文本训练。正如文献[ 29 ]报道的那样,这种预训练大约需要3周。当两个模型都在没有多模态前导的情况下训练时,我们的VX2TEXT比HERO提高了4.7 %。
TVC在TVC的字幕任务上,我们提出的VX2TEXT显著优于最先进的MMT [ 28 ]系统。在没有预训练的情况下,英雄取得了与MMT相当的成绩,但低于我们的成绩。通过对额外的7.6 M样本(再次需要3周)进行多模态预训练,HERO仅略优于我们的模型。我们的VX2TEXT在测试集上也表现出了很好的泛化性。值得注意的是,正如在TVQA上所做的那样,即使在这里,我们也将目标检测预测作为我们模型的输入模态,因为在这个比较中所考虑的方法都可以获得帧级别的特征。
见表3。VX2TEXT在TVC的验证集和测试集上的视频描述性能。我们的模型在没有利用额外样本进行多模态预训练的方法中取得了最好的性能。
见表3。VX2TEXT在TVC的验证集和测试集上的视频描述性能。我们的模型在没有利用额外样本进行多模态预训练的方法中取得了最好的性能。

见图7。在AVSD验证集上生成了音视频场景感知对话的答案实例。在多模态输入的情况下,我们的VX2TEXT成功地用自然语言进行了回应。由于隐私的原因,帧中的人脸被人为地掩盖。
见图7。在AVSD验证集上生成了音视频场景感知对话的答案实例。在多模态输入的情况下,我们的VX2TEXT成功地用自然语言进行了回应。由于隐私的原因,帧中的人脸被人为地掩盖。
见图8。VX2TEXT生成的文本描述用于TVC验证集上的视频描述的实例。我们的VX2TEXT从多模态输入中生成信息描述。由于隐私的原因,帧中的人脸被人为地掩盖。
见图8。VX2TEXT生成的文本描述用于TVC验证集上的视频描述的实例。我们的VX2TEXT从多模态输入中生成信息描述。由于隐私的原因,帧中的人脸被人为地掩盖。

4.6.定性分析结果

 如图7和图8所示,我们的VX2TEXT为视听场景感知对话和视频描述生成了逼真的自然文本。非常令人鼓舞的是,尽管我们的模型需要一些文本输入,例如对话历史或演讲稿,但生成的文本确实包含了来自其他模态的信息。例如,如图8中的例子所示,我们的模型成功地识别了帮助起床或接电话等动作,甚至正确地对字符进行了打磨。附加定性结果请见附录。

5. 结论

 在这项工作中,我们提出了一个简单的统一框架,以解决从具有额外模态的视频中生成文本的问题。我们的方法依赖于将所有模态映射到一个语义语言空间的思想,以便能够直接应用变压器网络,而变压器网络已经被证明在语言问题建模方面是非常有效的。我们引入了一种可微的tokenization机制,将模式特异性分类器的连续输出转换到语言空间。这使得我们的整个模型具有端到端的可训练性。我们的框架应用于单一架构,在三个不同的基于视频的文本生成任务上都优于当前的先进水平。

注:全文由Zotero翻译

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值