TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog(arXiv CS.CL 2020)
动机
- 视听场景感知对话(AVSD)利用给定的场景、视频、音频和对话中的前转历史生成对问题的响应。AVSD被认为是最具挑战性的任务之一,因为系统需要识别对话的历史以及视觉和声学数据来准确回答问题。
- AVSD任务中的一个挑战是:获取多种模态的计算表示。为了解决这一问题,以前的一些研究主要集中在模态提取器的预训练上。
- 使用基于Transformer的体系结构,以前的最先进模型显示了该任务的优越性能。然而,在学习更好的模式表征方面仍然存在一些限制。
- 多模态Transformer网络(MTN)是第七届对话系统技术挑战赛(Dialog System Technology Challenge 7,DSTC7)的AVSD(DSTC7-AVSD)的最先进的系统。
方法
简介
受神经机器翻译(NMT)的启发,作者提出了一种基于Transformer的模态转换器(TMT)来学习模态的表示。在TMT中,源模态序列以一种监督学习的方式被转换成其他相关模态序列。该方法的关键是有效地利用相关的多模态来表达源模态。在MTN的基础上,将TMT应用于视频和对话,提出了基于视频的对话系统MTN-TMT。作者在DSTC7-AVSD跟踪上对MTN-TMT进行了评估,它生成了考虑多种模态的对话响应。MTN-TMT在视频和文本任务以及纯文本任务方面均优于MTN和其他子任务模型。与MTN相比,MTN-TMT改进了所有指标,尤其是对CIDEr的相对改进达14.1%。
架构
MTN。这是一个基于Transformer的编码器-解码器框架,它有几个attention块来合并多种模态,如视频、音频和文本。MTN由三个主要组件组成:编码器、解码器和查询感知自动编码器。在编码器中,文本序列fa和视频特征fv被映射到一个连续表示序列。MTN的贡献之一是用Transformer代替RNN增强了模态的上下文依赖性。另一个贡献是他们提出了一个查询感知注意力编码器来学习非文本模态的表示。与查询感知的自动编码器相比,TMT通过其他相关的模态而不是查询来学习模态的表示。
TMT。基于转换相关模态可以更深入地捕捉模态之间的相关性,作者引入了基于Transformer的模态转换器(TMT)将源模态序列转换成相关的目标模态序列,从而学习出更好的源模态序列。如图1所示,TMT由多层Transformer编码器(左&