【论文阅读】Multimodal dialogue response generation

论文地址https://arxiv.53yu.com/abs/2110.08515

背景知识:在人类对话中图像可以很容易地表现出丰富的视觉感受。(1)对方对你所说的物体了解很少(2)分享更多的细节(3)更好地表达情绪。一个现有的任务:照片分享,目的是根据文本背景选择和分享图片,需要模型理解背景故事,并辅以人类的想象力。

0.摘要

现有的工作只专注于多模态对话模型,依赖基于检索的方法,而忽略了生成方法。

一个新任务:多模态对话回应生成MDRG,给定对话背景,一个模型需要生成文本或图像作为回复。文本和图像的多模态对话很难获得。

假设一种低资源环境:只有有限的训练实例可以使用,设计一个新的对话代理Divter,从整个生成模型中分离出依赖于多模态对话的参数,模型的主要部分可以分别从大量的纯文本对话和文本-图像对中学习,然后只需要使用少数训练实例就可以很好的拟合整个参数。

实验表明,我们的方法在自动和人工评估中都取得了最先进的结果,并且能够生成信息丰富的文本和高分辨率的图像反应。

1.引言

在线对话由纯文本变成了各种视觉模式(图像、GIF动画、短视频)。

预训练纯文本对话生成模型有很好的性能,加入视觉语言任务包括:视觉问题回答、图像说明、以图像为基础的对话。

本文的多模态对话回应生成MDRG是在给定的对话背景下,模型不仅要生成纯文本回应,还要有能力生成多模态回应。存在的障碍有(1)复杂的端到端架构会过度适应极少数注释良好的训练数据,在讨论训练数据之外领域的话题,性能会急剧下降。(2)人力成本很高,在新的领域收集足够的训练数据不容易。因此,将MDRG的假设扩展到只有少数多模态对话的低资源环境中。

关键思想:拆分文本回应生成和图像回应生成,使依赖多模态对话的参数变得小而独立,可以从纯文本对话和<图像描述,图像>对中学习生成模型的主要部分。具体来说,提出了Divter,有大规模视觉世界体验驱动的新型对话代理。有两个Transformer的组件,一个多模态对话回应生成器,一个文本到图像的翻译器。Divter将对话背景作为输入,然后生成一个文本序列,可能包含一个文本回应或者文本图像描述,或者包括两者。文本-图像翻译器根据上述描述为条件,生成一个逼真的一致的高分辨率图像。这两个组件是独立的,具有相反的知识,可以分别利用他们预训练。端到端的Divter依赖于作为元组的多模态对话(对话背景,文本响应/<图像描述,图像>),这两个组件的联合学习和估计只需要根据特定领域的一些训练实例。

Contributions:

1.第一项关于多模态对话回应生成的工作,探索在低资源环境下的任务,只有少数多模态对话是可用的。

2.提出Divter一个新颖的对话代理,可以有效地理解对话背景并产生信息性的文本和高分辨率的图像回应。

3.在PhotoChat的语料库的实验是有效的,与纯文本对话生成模型和基于检索的图像共享方法相比,取得了显著的改进。

2.相关工作

主要分了两个部分

文本对话回应生成:前人研究主要是纯文本的,本文是多模态的。

文本到图像的生成:最早2016可以从自然语言描述中生成图像,2021使用transformer模型将文本和图像标记作为单一的数据流进行自动回归建模。我们使用文本图像描述来衔接上述文本对话生成和文本到图像生成模型,图像描述是前者的输出,在低资源环境下是后者的输入。

3.方法

图1 模型总体框架

1)阐述多模态对话的统一标记化方法

对文本和图像的统一表示进行建模,(相关方法DALLE(2020),VQGAN(2021))以序列的形式表达图像和纯文本。在图1的最右侧。文本标记化已经有很好的研究,采用50257个BPE编码和transformer架构的分布式嵌入模拟对话的文本。图像标记:一个离散自动编码器,VQGAN称为V,使用编码器VE将图像压缩 element-wise元素明智化:也就是元素对应相乘。

2)在低资源情况下生成模型两个组成部分:文本对话回应生成器、文本到图像翻译器

多模态对话资源很少,但是纯文本资源很多,因此将生成性文本到图像的翻译纳入纯文本开放领域的对话回应生成中。

如果多模态对话语境中包括图像,就用图像的描述代替它,形成一个纯文本语境,并作为纯文本对话生成模型的输入

如果我们需要生成图像作为回应的一部分,先生成一个文本描述,然后采用文本到图像的翻译模块将描述翻译成同义的图像。图1中两个结构。

文本对话回应生成器G:基于transformer的seq2seq模型,24层transformer,隐层大小1024,16个头。[SEP]分隔符,[DST]代表子序列是文本图像描述。给定一个新的文本对话语境U,当生成的图像描述c出现时,它将被送入到以下的文本到图像的翻译器,然后构建到其同义图像的编码簿嵌入。

文本图像翻译器F:transformer架构一样。给定一个描述c,利用文本图像翻译器来生成zˆ图像的表征。训练一个自回归变换器模拟文本和图像标记的联合分布。

最小化损失函数L=LG+λLF,λ是超参数。

这项工作关注的是整合文本和图像回应的生成,而目标模态可以是gif,视频或语音等,只需要修改文本到图像的翻译器,使之与特定的模态类型兼容,然后预先训练一个新的文本到目标模态的翻译器。

4.实验

1)数据集

Zang(2021)发布的PhotoChat数据集,这是一个多模态对话数据集,包括10917张图片和12286个对话,每个对话都与用户图片配对,每个图片都与文本描述配对。分成10286训练、1000验证、1000测试实例。

2)评价指标

自动指标和人的判断。

自动指标:

1.图像意图预测,预测在给定的背景下是否应该在下一个回合产生一个图像。Zang等(2021)问题表述为二元分类任务,采用F1为标准

2.文本描述生成。PPL,BLEU(Papineni, 2002),Rouge(Lin,2004)和F1

3.图像生成质量。Ramesh等(2021)的FID(Frechet Inception Distance)和IS(Inception Score)

4.文本回应生成。PPL,BLEU(Papineni, 2002),Rouge(Lin,2004)和F1

人类评估:随机抽取200个对话环境,从PhotoChat中生成Divter和baselines的回应。三个人类注解者从四个方面对响应质量评分{0,1,2}

1.语境连贯性:文本反应是否与背景一致

2.文本流畅性:文字反应是否自然流畅

3.图像质量:图像的定义和完整性

4.图像的背景一致性:每个对话选择前8个生成的图像组,要求注视着检查是否与对话背景一致。

还将纯文本和多模态Divter与DialoGPT比较,纯文本Divter表示解码阶段屏蔽了[DST]标记,回答中只包含了文本。随机抽取了200个对话,对于每个注释者,来自不同模型的两个反应被隐藏来源给出,判断哪种反应对改善对话体验和吸引力更有效,注释者之间的一致性用Fleiss’Kappa(1971)衡量。

(kappa系数查了一下是一个用于一致性检验的指标。)

3)实施细节

文本对话响应生成器G,使用DialoGPT(2020)作为预训练模型初始化,2005-2017从Reddit评论链中提取147M对话交流训练。

微调阶段:串联成一个序列,采用Adam优化器,批次大小256,学习率1e-5

图像标记器V:Ramesh(2021)的模型

文本到图像翻译器F:从ImageNet随机选5M个<分类图像描述,图像>对,从YFCC100M(2016)选<图像描述,图像>对作为训练数据。最大描述长度32。预训练对PhotoChat进行50000步的训练.

推理阶段:CLIP(2021)对生成的256个样本排序

联合学习:训练F48000步,联合训练G,F2000步,λ=0.2.网格搜索确定超参数

代码:图像自动编码器,文本对话响应发生器,文本到图像翻译器

4)基线

两个BERT-base(2019),T5-3B(2020)用于测量“图像意图预测任务”

SCAN(2018)图像区域和文本标记之间的相互作用推断图像-文本的相似性,用于“图像检索”任务

S2S-TF具有24层transformer模型,用PhotoChat训练

5)结果分析

 表1:我们的模型与最先进的基于检索的图像响应意图预测模型相媲美的性能。能够准确判断产生图像反应的时机与给定的对话背景,并产生与背景一致的文本反应和高质量的图像反应。

表2:人类评估在大多数方面优于baseline

表3:在纯文本上Divter和DialoGPT性能相当,多模态比纯文本在对话体验和吸引力表现更好

6)消融实验

不同组成部分对MDRG任务的相对重要性

表1所有变体都导致了性能更差。定性评估结果也在论文里展示了。

定量和定性结果都证明了:预训练对低资源生成至关重要,不能删除任何部分;对图像生成性能的影响:F>G,对文本生成性能:G>F; 利用文本背景和视觉图像的综合学习能提高性能。

案例学习:冰激凌和蜜蜂的例子

 与基于检索的方法相比的优势:比较前十个生成的图像和SCAN模型对比,图5:生成的多样性和丰富性但也会与对话背景的错误一致性。在第三个例子,基于检索的方法表现很差,而本文的模型有更好的泛化能力应对低资源的挑战。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值