ACL 2020 Video-Grounded Dialogues with Pretrained Generation Language Models

本文探讨了预训练的GPT-2模型如何提升视频对话的效果。通过将视频对话任务转化为序列到序列任务,结合视频和文本表示,微调预训练模型以捕捉多模态依赖关系。实验表明,这种方法在AVSD基准测试中表现优越,提高了生成对话响应的质量和性能。
摘要由CSDN通过智能技术生成

动机

  1. 预训练好的语言模型在改善各种下游NLP任务方面已显示出显著的成功,这是由于它们能够在文本数据中建立依赖关系和生成自然反应。本文利用预训练好的语言模型来提高视频对话的效果。
  2. 基于Transformer的预训练好的语言模型的神经结构已经被用来学习视觉-文本NLP任务的跨模态表征。它可以应用于捕捉不同类型输入模式(文本和图像)之间的各种依赖关系,并具有适当的客观损失函数。这些模型的多头attention机制可以检测输入文本中的每个token与输入图像中的每个图像块或空间对象之间的长程依赖关系。作者的动机是将这条线的研究扩展到视频对话任务,并充分利用预训练好的模型的能力以在对话和视频中获得语言和视觉表示。
  3. 视频对话是一个非常具有挑战性的过程,涉及到不同动态的复杂特征:(1)视频特征可以扩展到空间和时间两个维度;(2)涉及多个对话转折的语义依赖的对话特征。
  4. 作者的目标是以端到端的方式处理基于视频的对话任务和生成自然反应。

方法

简介

视听场景感知对话(AVSD)任务,该任务旨在根据视频的视觉和音频特征生成对话响应。对话引擎需要创建响应,不仅匹配对话流,而且在多个对话轮中处理用户关于给定视频的问题。作者提出了一个扩展GPT-2模型的框架,通过将基于视频的对话任务形成为序列到序列的任务,将视觉和文本表示结合到结构化的序列中,并对预训练好的大型GPT-2网络进行微调,来应对上述挑战。作者的框架允许对语言模型进行微调,以捕获不同信息层次上的多个模态之间的依赖关系:视频中的时空级和对话上下文中的token-句子级。
首先,作者将基于视频的对话作为预训练好的语言模型的下游任务来表达输入成分。在一般的序列到序列的框架中,输入组件被组合成一个多模态的结构化序列,输出是一个系统响应。然后作者应用预训练的模型来利用深度注意力神经网络以精细粒度从而捕获文本和视频依赖关系。具体地说,作者提出了沿着输入视频的时间维度捕获文本数据中的每个token和每个空间特征之间的依赖关系。最后,作者提出了一个多任务学习框架,它除了对话反应生成目标之外,还包括其他学习目标。作者对DSTC7的视听场景感知对话(AVSD)标准进行了有希望的改进,为这方面的研究提供了一个潜在的方向。

模型

在这里插入图片描述

作者的模型架构可以在图1中看到。作者受到基于Transformer的LM方法的启发,该方法利用文本中不同级别的特征,如单词、字符和位置级别。作者将这一原理和技术应用于AVSD中,克服了多轮对话输

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值