动机
- 预训练好的语言模型在改善各种下游NLP任务方面已显示出显著的成功,这是由于它们能够在文本数据中建立依赖关系和生成自然反应。本文利用预训练好的语言模型来提高视频对话的效果。
- 基于Transformer的预训练好的语言模型的神经结构已经被用来学习视觉-文本NLP任务的跨模态表征。它可以应用于捕捉不同类型输入模式(文本和图像)之间的各种依赖关系,并具有适当的客观损失函数。这些模型的多头attention机制可以检测输入文本中的每个token与输入图像中的每个图像块或空间对象之间的长程依赖关系。作者的动机是将这条线的研究扩展到视频对话任务,并充分利用预训练好的模型的能力以在对话和视频中获得语言和视觉表示。
- 视频对话是一个非常具有挑战性的过程,涉及到不同动态的复杂特征:(1)视频特征可以扩展到空间和时间两个维度;(2)涉及多个对话转折的语义依赖的对话特征。
- 作者的目标是以端到端的方式处理基于视频的对话任务和生成自然反应。
方法
简介
视听场景感知对话(AVSD)任务,该任务旨在根据视频的视觉和音频特征生成对话响应。对话引擎需要创建响应,不仅匹配对话流,而且在多个对话轮中处理用户关于给定视频的问题。作者提出了一个扩展GPT-2模型的框架,通过将基于视频的对话任务形成为序列到序列的任务,将视觉和文本表示结合到结构化的序列中,并对预训练好的大型GPT-2网络进行微调,来应对上述挑战。作者的框架允许对语言模型进行微调,以捕获不同信息层次上的多个模态之间的依赖关系:视频中的时空级和对话上下文中的token-句子级。
首先,作者将基于视频的对话作为预训练好的语言模型的下游任务来表达输入成分。在一般的序列到序列的框架中,输入组件被组合成一个多模态的结构化序列,输出是一个系统响应。然后作者应用预训练的模型来利用深度注意力神经网络以精细粒度从而捕获文本和视频依赖关系。具体地说,作者提出了沿着输入视频的时间维度捕获文本数据中的每个token和每个空间特征之间的依赖关系。最后,作者提出了一个多任务学习框架,它除了对话反应生成目标之外,还包括其他学习目标。作者对DSTC7的视听场景感知对话(AVSD)标准进行了有希望的改进,为这方面的研究提供了一个潜在的方向。
模型
作者的模型架构可以在图1中看到。作者受到基于Transformer的LM方法的启发,该方法利用文本中不同级别的特征,如单词、字符和位置级别。作者将这一原理和技术应用于AVSD中,克服了多轮对话输