(二)Jointly Optimizing Diversity and Relevance in Neural Response Generation

本文提出了一种空间融合模型,旨在神经响应生成中同时优化相关性和多样性。通过结合seq2seq模型和自动编码器的潜在空间,并引入新的正则化项,模型能够在保持相关性的同时生成多样化的响应。实验结果表明,该模型在自动和人工评估中均优于基线模型,展示了其在潜在空间中平滑语义变化和均匀分布的能力。
摘要由CSDN通过智能技术生成

Jointly Optimizing Diversity and Relevance in Neural Response Generation

3.空间融合模型
3.1问题陈述

设D=[(x0,y0),(x1,y1),····,(xn,yn)]表示会话数据集,其中x和y分别是上下文及其响应。x由一个或多个语句组成。我们的目标是训练一个关于D的模型,在给定的环境下产生相关的和不同的反应。

3.2融合的潜在空间

我们设计了我们的模型来诱导一个潜在的空间,在这个空间中,给定上下文的不同响应是围绕预测响应向量的不同方向,如图1所示。然后我们可以通过改变方向来获得不同的响应,并通过在预测响应附近取样来保持它们的相关性向量。到为了实现这一目标,我们首先分别使用S2S模型和AE模型生成预测响应表示zS2S和目标响应表示zAE,如图2所示。这两种编码器都是使用叠加选通递归单元(GRU)(Cho等人,2014)单元,然后是添加多元高斯噪声∼N(0,σ2I)的噪声层来实现的。然后,我们明确鼓励沿着从zs2到zAE的路径进行平滑的语义转换,通过在它们之间施加任何插值,通过以下损失项生成相同的响应:
在这里插入图片描述
其中zinterp=uzS2S+(1−u)zAE和u∼u(0,1)是一个均匀分布的随机变量
在这里插入图片描述
|y |是y中的字数。请注意,正是这个正则化项有效地防止了显著不同的响应在同一方向上对齐,基本上将它们分散在不同的方向上。为了使这种内插损耗发挥作用,我们为AE和S2S模型共享与中相同的解码器(Luan等人,2017)。解码器由堆叠的GRU单元和softmax层组成。值得一提的是,zinterp不仅仅是从一条直线随机抽取的,而是从一个更丰富的概率区域随机抽取的,因为zinterp和zs2都是随机的,因为随机分量,我们希望来自AE和S2S模型的向量以均匀的方式分布在整个空间中,同时对于训练数据中的任何(上下文响应)对,保持zs2和zAE之间的距离尽可能小。这一目标用以下正则化术语表示:
在这里插入图片描述
其中n是批量大小,d(a,b)是a和b之差的均方根。对于每批,我们基本上分散由相同模型获得的向量,并将预测响应向量拉到相应的目标响应向量。在实际应用中,我们发现如果将欧氏距离裁剪到一个指定的最大值,性能会更好。

最后,使用权重参数α和β,损失函数定义为:
在这里插入图片描述
由于Linterp和Lfuse鼓励zS2S和zAE之间的路径平滑且短,同时在整个空间上散射向量,因此它们有效地融合了zS2S潜在空间和zAE潜在空间空间。相应地我们将这种方法称为路径正则化的空间融合。

3.3训练

与先前的多任务会话模型(Luan et al.,2017)不同,在该模型中,S2S和AE交替训练,我们的方法通过最小化方程的损失函数来同时训练S2S和AE

3.4推断

与赵等人(2017年)和鲍曼等人(2016年)一样,在给定的背景下,我们对不同的潜在向量进行采样,以获得多个假设。这是通过将从半径为r的超球体均匀采样的随机向量r添加到预测zS2S(x)来实现的
在这里插入图片描述
其中| r |在验证集上调谐以优化相关性和多样性之间的权衡。z(x,r)然后作为GRU单元的初始状态馈送到解码器。然后我们使用贪婪解码生成响应

4.实验设置
4.1数据集

我们使用了以下数据集。表中列出了它们的一些关键特性

switchboard:我们用Zhao et al.(2017)提供的版本是Godfrey和Holliman(1997)原始版本的扩展。Zhao et al.(2017)使用信息检索(IR)技术和人类过滤收集了测试集的多个参考,并将数据随机分成2316/60/62个会话,分别用于训练/验证/测试。每个会话有多个回合,因此有多个(x,y)对,如表1所示。由于我们的方法不利用除会话历史以外的额外信息,因此将元数据(如性别、年龄、提示)从此数据集中移出。
在这里插入图片描述
Reddit:由于switchember数据集相对较小,并且综合构建了多个引用,因此我们通过提取帖子和评论开发了另一个多引用数据集Reddit.com网站2011年由第三方收集。由于每个Reddit帖子和评论可能有多个评论,因此它是多参考答案的自然来源。我们进一步根据回复的数量过滤数据,得到最终的会话数据集,其中每个上下文至少有10个不同的回复,对于给定的上下文,平均回复的数量是24.1。如表1所示,其尺寸明显大于配电盘。在被分成训练/有效/测试子集之前,会话被随机洗牌。

4.2模型设置

编码器和共享解码器都由两个GRU单元组成,每个单元有128个隐藏单元。每个解码器中噪声层的方差为σ2=0.12。嵌入维数为128。权重参数(见等式3)设定为α=1和β=30。对于这两个数据集,推断半径| r |(见等式4)设置为1.5,这优化了验证的F1分数一切就绪使用Adam方法(Kingma和Ba,2014)对模型进行训练,两个数据集的学习率均为0.001,直至收敛(Reddit约4个时期,交换机约10个时期)。

4.3自动评价

对于给定的上下文x,我们有Nr个参考答案并产生相同数量的假设。根据Zhao等人(2017)的建议,我们基于4-gram BLEU定义了以下指标(Papineni等人,2002)
在这里插入图片描述
我们使用精确度作为相关性和多样性召回的近似替代指标。需要注意的是,回忆并不等同于其他多样性指标,例如,distinct(Li et al.,2016a)和entropy(Zhang et al.,2018),后者仅依赖于假设。这些指标的一个潜在问题是,即使是随机生成的响应也可能产生较高的多样性分数。F1是这两者的谐波平均值,用于测量整体响应质量。

4.4人工评价

我们使用人群工作者进行人体评估。对于每一个假设,考虑到它的上下文,我们要求三个注释者以1到5的比例,以两个为单位,分别测量质量方面:相关性和兴趣。兴趣度被视为对多样性的一种估计,因为这两者通常是相关的。所有系统的假设在提供给用户之前都会被洗牌注释器系统注释器看不到名称

4.5Badeline

我们将提出的模型与后续的基线模型进行了比较:
S2S系统+取样:我们考虑S2S模型的普通版本。其尺寸与我们的模型相似:编码器和解码器都由两个具有128个隐藏单元的堆叠GRU单元组成,字嵌入大小为128。与赵等人(2017)的基线一样,我们在推断时应用softmax抽样来生成多个假设。CVAE公司+鞠躬:为了在CVAE会话模型中,我们使用了赵等人(2017)的原始实现和超参数与bag of words(BOW)loss。可训练模型参数的数目是15.4米,比我们的模型(3.2米)大得多。米任务:自从我们该方法采用多任务学习方案,我们还将其与普通多任务学习模型MTask(类似于Luan et al.,2017)进行了比较,以说明空间的影响核聚变模型结构和超参数与提出的模型相同,只是损失函数不同是L=−logp(y | zS2S)−logp(y | zAE)

5.结果和分析
5.1潜在空间的深度分析

在本节中,我们进行了深入的分析,以验证我们的方法所产生的潜在空间是否表现出理想的性质,即:1)在相关性和多样性之间分离出空间结构;2)语义变化平滑、无空洞的均匀空间分布。我们首先提供了一个基于真实例子的定性调查。然后,我们提出了一套语料库级的定量分析,重点放在几何性质

5.1.1定性示例

在表2中,我们从“有人想开始这个游戏吗?”?,这是从Reddit中得到的一个真实的例子。三个不同的方向对应着明显不同的语义:“不,我不”,“什么时候?如果我们用S2S模型预测的向量(u=0)生成一个响应,我们的模型就会输出“我很想玩这个游戏”,这与上下文。现在当我们沿着每个方向移动时,我们可以看到,我们的模型逐渐将响应转换为各个方向的相应响应。因为在立场上,对于“不,我不”,我们的模型逐渐转变为“我对游戏不感兴趣”(u=0.18),然后是“我不感兴趣”(u=0.21)。相反,对于“是的,我愿意”,回答会转换为“我很想玩它”(u=0.15)。除了积极或消极的方向,同样的过渡适用于其他方向,如“何时?”.
在这里插入图片描述

. 这个例子清楚地表明,在我们的方法诱导的潜在空间中,几何属性和语义属性之间存在粗略的对应关系,如图1所示–当我们远离预测的响应向量时,响应的相关性降低,不同的方向与语义不同的响应相关联

5.1.2方向与多样性

为了定量验证方向与多样性之间的对应关系,我们可视化了从测试数据集中抽取的1000个随机样本集中每个上下文的多个参考之间余弦相似性的分布。具体地,对于上下文xk及其相关参考响应[yk、0、yk、1、·····),我们计算zAE(yk,i)−zS2S(xk)和zAE(yk,j)−zS2S(xk)之间的余弦相似性。在图3中,我们比较了模型和MTask的分布,MTask没有使用正则化项。当我们的方法得到一条平均余弦相似性接近0.38的钟形曲线时,MTask的分布极为偏斜,平均余弦相似性接近1(0.95)。这表明,参考响应的方向在我们的潜在空间中分布更均匀,而所有的参考响应都被压缩在MTask空间的一个窄带中。这使得推理过程简单而健壮,因为可以选择任意方向来生成不同的响应。

5.1.3距离与相关性

为了定量地验证距离和相关性之间的对应关系,我们可视化了从相关的zS2S(u=0)到对应于预测响应的zAE(u=1)路径上参考响应的困惑。在图4中,我们将我们的模型与MTask进行了比较,如前所述,MTask没有使用正则化项。虽然我们的模型显示了困惑的逐渐增加,但MTask的行有一个巨大的起伏。这清楚地表明,在我们的潜在空间中,距离和相关性之间存在着粗略的对应关系,而即使光线变化也会导致MTask空间中不相关的响应。
在这里插入图片描述
对于表3中的一个具体例子,我们进一步说明了相关性随距离的平滑变化。考虑到“有人想开始这个游戏吗?”,我们的模型能够从预测的回答“我很想玩这个游戏”转变为参考回答“是的,我愿意”。相关性会平稳地下降,产生中间反应,如“我很想玩它”。相反,MTask模型在偏离预期反应时往往会产生不相关或不合语法的反应。
在这里插入图片描述

5.1.4均匀性和凸性

我们想要装备我们的潜在空间的其他理想性质是均匀性和凸性。如果空间是不均匀的,我们必须根据不同的区域特征进行不同的取样。如果空间不是凸面的,我们就不得不担心会遇到与有效语义没有恰当关联的漏洞。为了验证均匀性和凸性,我们将我们的潜在空间可视化在一个由多维尺度(MDS)算法(Borg和Groenen,2003)生成的二维空间中,该算法近似地保持了成对距离。为了进行比较,我们还提供了MTask的可视化。如图5所示,我们的潜在空间提供了极大的均匀性和凸性,无论使用哪种模型来产生一个点(即zS2SorzAE)。相反,MTask的潜在空间形成了zS2S和zAE的两个独立的簇,在这两个簇之间有一个很大的间隙,没有训练样本被映射到

5.2自动评价

我们让每个系统为测试数据集中的每个上下文x生成100个假设{hj}。假设X有Nr,我引用,我们选择顶部Nr,我不同的假设排序对数log(HJ×席)+拉姆齐。与(Li et al.,2016a;Wu et al.,2016)类似,我们考虑了| hj |,因为BLEU对长度敏感

为了公平比较,调整λ,使所有系统的平均假设长度大致相同,并接近参考文献的平均长度。自动评估结果如表4所示。在这两个数据集上,所提出的系统在精确度、召回率和F1方面都比基线有很大的优势。Reddit和switchember的系统输出和人工参考示例分别见表5和表6。如示例所示,CVAE+BOW和其他基线模型可能会产生不同但不相关的响应。

在这里插入图片描述

5.3人类评价

我们从ReDDIT测试数据集随机抽取500个上下文,并选取由log P(HJ席Xi)+ La(HJ)排名的每个上下文所产生的前1个假设。在自动评估中,我们调整了λ,使得所有系统都大致

相同的平均假设长度。我们还为每个上下文随机选择一个参考,并将其与表7中标记为“人类”的系统进行比较,如表7所示,所提出的模型优于除人类以外的所有系统,与我们的自动评估结果一致。
在这里插入图片描述
在这里插入图片描述

6结论

我们提出了一个空间融合模型来联合优化多样性和相关性,该模型利用新的正则化项来从本质上融合S2S模型和自动编码器模型的潜在空间。这种融合的潜在空间具有两点间平滑的语义插值等特性。与预测响应向量的距离和方向分别大致匹配相关性和多样性。这些特性还可以直观地显示潜在空间。自动评估和人工评估结果均表明,与强基线相比,该方法在多样性和相关性方面都有显著改进。在未来的工作中,我们将提供所提出的正则化有效性的理论证明条款。我们希望这项技术能作为一个有效的“混合板”应用于利用多种信息源的对话。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值