ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models

最新推荐文章于 2022-06-29 23:21:30 发布

smile909

最新推荐文章于 2022-06-29 23:21:30 发布

阅读量326

点赞数

分类专栏： ACL 2020

本文链接：https://blog.csdn.net/smile909/article/details/116809019

版权

ACL 2020 专栏收录该内容

3 篇文章

订阅专栏

本文探讨了预训练的GPT-2模型如何提升视频对话的效果。通过将视频对话任务转化为序列到序列任务，结合视频和文本表示，微调预训练模型以捕捉多模态依赖关系。实验表明，这种方法在AVSD基准测试中表现优越，提高了生成对话响应的质量和性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

动机

预训练好的语言模型在改善各种下游NLP任务方面已显示出显著的成功，这是由于它们能够在文本数据中建立依赖关系和生成自然反应。本文利用预训练好的语言模型来提高视频对话的效果。
基于Transformer的预训练好的语言模型的神经结构已经被用来学习视觉-文本NLP任务的跨模态表征。它可以应用于捕捉不同类型输入模式（文本和图像）之间的各种依赖关系，并具有适当的客观损失函数。这些模型的多头attention机制可以检测输入文本中的每个token与输入图像中的每个图像块或空间对象之间的长程依赖关系。作者的动机是将这条线的研究扩展到视频对话任务，并充分利用预训练好的模型的能力以在对话和视频中获得语言和视觉表示。
视频对话是一个非常具有挑战性的过程，涉及到不同动态的复杂特征：（1）视频特征可以扩展到空间和时间两个维度；（2）涉及多个对话转折的语义依赖的对话特征。
作者的目标是以端到端的方式处理基于视频的对话任务和生成自然反应。

方法

简介

视听场景感知对话(AVSD)任务，该任务旨在根据视频的视觉和音频特征生成对话响应。对话引擎需要创建响应，不仅匹配对话流，而且在多个对话轮中处理用户关于给定视频的问题。作者提出了一个扩展GPT-2模型的框架，通过将基于视频的对话任务形成为序列到序列的任务，将视觉和文本表示结合到结构化的序列中，并对预训练好的大型GPT-2网络进行微调，来应对上述挑战。作者的框架允许对语言模型进行微调，以捕获不同信息层次上的多个模态之间的依赖关系：视频中的时空级和对话上下文中的token-句子级。
首先，作者将基于视频的对话作为预训练好的语言模型的下游任务来表达输入成分。在一般的序列到序列的框架中，输入组件被组合成一个多模态的结构化序列，输出是一个系统响应。然后作者应用预训练的模型来利用深度注意力神经网络以精细粒度从而捕获文本和视频依赖关系。具体地说，作者提出了沿着输入视频的时间维度捕获文本数据中的每个token和每个空间特征之间的依赖关系。最后，作者提出了一个多任务学习框架，它除了对话反应生成目标之外，还包括其他学习目标。作者对DSTC7的视听场景感知对话(AVSD)标准进行了有希望的改进，为这方面的研究提供了一个潜在的方向。

模型

在这里插入图片描述

作者的模型架构可以在图1中看到。作者受到基于Transformer的LM方法的启发，该方法利用文本中不同级别的特征，如单词、字符和位置级别。作者将这一原理和技术应用于AVSD中，克服了多轮对话输入与时空变化视频输入相结合的挑战。作者建议将视频分解为块，但保持一个结构化的序列。然后，该序列直接与对话的文本输入组合，对话的文本输入也按时间顺序排列。这种特征重构简单而强大，因为它允许跨所有文本token-视频块对的显式依赖学习。因此，它可以促进更强的信号以更大的粒度回答人类的查询。
作者基于GPT-2架构训练了一个GPT模型。GPT-2模型基于Transformer网络，该网络包括在非常大的文本数据上12到24层masked多头attention。继GPT-2在基于生成的任务中取得成功之后，作者利用GPT-2预训练模型的能力来生成基于视频的对话响应，并将作者的框架称为“VGD-GPT2”。
具体包括：

输入表示。首先，作者将输入分量修改为视频帧或视频片段和对话轮的长序列。
1）视频表示。视频表示。每个视频帧或视频片段进一步被结构化为空间区域序列，所述空间区域序列可以使用预训练好的视频模型来提取。对于输入视频V，作者表示预训练好的2D CNN或3D CNN视频模型的输出作为Z_V^pre∈R^F×P×demb，其中d_emb是预训练好的视频模型的特征维度，F是得到的采样视频帧或视频片段的数目，P是每个视频帧中的空间区域的数目。作者将Z_V重塑为图像块序列，并通过带有ReLU激活的线性变换，以匹配预训练语言模型的特征维度d：

其中W_V∈R^demb×d。作者把它称为输入视频的空间级特征。从图1中可以看出，作者通过添加三个额外的编码层将不同类型的输入属性注入到X_V中：
(1) 模态级编码，用于通知信息的类型。作者使用一个模态token“vis”来统一表示视觉信息类型。
(2) 时间级编码，用于通知输入特征的帧级（或片段级）位置的模型。
(3) 包含空间级排序的位置级编码。这相当于在基于BERT的语言模型中看到的在句子中的tokens的位置编码。
所有这三层都是可训练的参数，使模型能够学习输入特征的动态特性。将所有编码层建模为具有预训练模型的相同特征维度d。作者通过点加将所有编码层组合在一起，产生了丰富的视频表示：
在这里插入图片描述

2）文本表示。类似地，作者将对话历史H分解为对话轮的序列H=(H₁, H₂, … , H_t)，其中t是当前的对话轮。每个对话轮被表示为一对依次串联的用户话语U和系统响应S H=((U₁, S₁), (U₂, S₂), … , U_t))（S_t是目标生成的目标响应模型）。然后，每个话语被表示为token x的序列，因此对话历史可以被表示为X_H=(x₁, x₂, … , x_LH)和Y=S_t=(y₁, y₂, … , y_LY)，其中L_H和L_Y分别是对话历史和目标响应中的token总数。遵循AVSD设置（Hori等人，2019)，作者利用视频caption C的文本输入。视频caption通常以一个或两个句子提供视频的语言摘要。标题可以表示为一系列token X_C=(x₁, x₂, … , x_LC）。作者将所有的文本输入序列组合起来形成一个单一的序列X_T=(X_C, X_H, Y₋₁)作为模型的输入。Y₋₁是左移1个位置的目标响应序列，以启用输出token的自回归预测。作者将嵌入的特性表示为Z_T^token，作为文本输入的token级的编码层。与视频特征类似，作者添加了额外的层去注入X_T的不同属性。（见图1）
(1) 用于在X_T中区分片段的模态级编码。作者使用3个不同的模态tokens：“cap”、“sys”和“usr”来指定相应位置的token是输入caption、系统响应还是用户话语的一部分。
(1) 轮次级编码，对相应位置的token的轮数进行编码。
(2) 用于注入token排序信号的位置级编码。
与视频表示类似，编码输入通过点加进行组合：
在这里插入图片描述

作者将Z_V和Z_T拼接起来，创建一个长度为（F×P+L_C+L_H+L_Y)和嵌入维数为d的单个输入序列Z_VT。Z_VT用作预训练好的GPT-2的输入，用于微调。
2. 优化。遵循Transfertransfo采取的类似策略。作者在多任务设置中微调模型，目标如下：
(1) 响应生成：这是一个典型的目标函数，以源序列为条件，它将输出目标响应的可能性最大化。
(2) masked多模态建模：作者探索两种损失函数：masked语言建模(MLM)和masked视觉建模(MVM)。作者在训练实例中mask视频帧中的token和空间区域，并要求模型用剩余的输入重新生成它们。通过使用softmax通过线性层，类似于响应生成来学习MLM。通过最小化masked视觉区域的输出表示和原始输入表示之间的特征空间L1损失来学习MVM。两者都通过线性变换传递到相同的维度空间。这类似于针对图像风格转移和图像分辨率任务提出的感知损失。作者遵循BERT，用一个[MASK] token随机替换每个训练实例中约15%的token和图像区域输入。然后使用对应的输出表示来恢复原始token或图像区域。
(3) 匹配视频-文本对(MVT)：对于大约15%的训练实例，作者通过随机用不正确的对话或视频输入来代替原始输入，将预训练的语言模型适应于对话领域。作者使用一种特殊的token [CLS]拼接到输入序列以学习上下文表示。该向量通过Transformer注意力层整合上下文线索，并利用相应的输出表示来预测输入的视频-文本对是否正确。

实验

实验细节

作者使用GPT-2体系结构的开源实现并获得预训练好的模型检查点。作者用两个预训练好的GPT-2模型做实验：小型(S)和中型(M)。作者使用基于网格搜索的学习率为5e-5的Adam优化器。作者采用类似于Attention is all you need使用的学习率衰减调度。作者将响应生成损失的权重设置为比其他损失高1.5倍。
在这里插入图片描述

作者在DSTC7的大规模AVSD基准测试中进行了基于视频的对话任务实验。AVSD基准点包含以Charades视频为基础的对话。每个对话最多由10个对话轮组成，每个轮包括一个用户话语和系统响应（参见表1）。
为了提取视觉特征，作者使用基于3D CNN的ResNext-101对Kinetics进行预训练来获取时空视频特征。作者将批处理大小固定为16个，最大序列长度与相应的GPT2模型一致。作者无重叠的每16帧采样一次视频特征。作者在4个GPU上训练了多达50个epoch。作者报告了客观评分，包括BLEU、METEOR、ROUGE-L和CIDEr。作者将系统生成的响应与6个参考GT响应进行比较。

实验结果

作者将提出的VGD-GPT2模型与以下基线模型进行了比较：
(1) Baseline提出了一种新的在视频视觉和音频时间特征上都进行以问题引导的LSTM的序列到序列的方法。对话历史由分层LSTM编码，最终表示与问题和视频表示拼接起来，作为解码对话响应的输入。
(1) AVSD Winner以更精炼的视觉特征和从一个视频摘要任务中转移学习扩展了之前的工作。
(2) MTN采用了一种基于Transformer的方法，以问题引导的方式关注作为自动编码模块制定的视觉特征。表2显示了作者结果的细节。
在这里插入图片描述

作者的VGD-GPT2模型在所有自动化度量中都优于现有的方法。结果表明，通过视频对话对语言模型进行微调，可以帮助生成高质量的响应，并提高模型的性能。通过使用在海量文本数据上预训练好的语言模型来初始化作者的模型，作者获得了更丰富的特征表示，从而捕获了输入之间更复杂的依赖关系。
与基于Transformer的神经网络的基线相比，作者的模型在不同维度的不同层次上以同等重要的重要性对待视觉和文本特征。具体地说，作者在视觉特征和文本特征之间对齐了token级和空间级，轮次级和时间级。相比之下，MTN只考虑了视觉特征的时间变化，主要关注基于文本的注意力。作者的早期融合策略采用多模态输入的多级对齐方法，使得在神经网络的后几层中，所有特征表示之间的关系具有更高的分辨率。
消融研究
此外，表2还表明，对一个具有时空信息和多任务目标的预训练模型进行微调，可以有利于响应生成的主要任务。仅获得空间和时间特征，作者遵循类似于Tgif-qa的方法，通过使用平均池化来沿着时间或空间维度池化视觉特征。以CIDEr为评价指标，在空间和时间两个维度上的学习依赖对学习效果的改善分别为来自仅空间特征的0.01的绝得分和仅时间特征的0.008的绝对得分。
作者提出的辅助目标也有助于通过调整预训练好的模型以适应当前的数据领域，基于视频的对话来提高模型的性能。MLM和MVM用于改进token和空间层次上的局部依赖的学习，MVT用于支持文本和虚拟模态之间的全局依赖的学习。作者观察到，加入MVM目标函数可以使CIDEr得分增加最多，增加了0.043个绝对得分，而和加入MVT(0.023个绝对得分）和MLM(0.004个绝对得分）的目标函数相比，增加了0.043个绝对得分。
作者还发现，当从小到中等的增加GPT-2的大小时，BLEU3、BLEU4和ROUGE-L的性能也有中等程度的改善。作者注意到GPT-2中不断增加的模型参数可能需要更长的微调过程或更大的对话训练数据集来充分优化对话域中的模型。

小结

作者利用预训练好的语言模型来完成一个基于视频的对话任务。作者提出了一种序列到序列的框架和一种多任务微调的方法来使预训练好好的模型适应于视频对话领域。尽管作者使用了GPT-2模型，但作者的框架可以与其他语言模型一起扩展，并类似地用于改进其他多模态对话。作者的早期融合策略有效地统一了对话和视频中不同层次的特征，而不会使网络架构复杂化。