(二)ReCoSa: Detecting the Relevant Contexts with Self-Attention forMulti-turn Dialogue Generation

3.2响应表示编码器

以响应Y={y1,···,yM}为输入,另一个多头自注意分量对每个词的嵌入和位置嵌入进行变换,得到响应表示。对于每个单词yt,这个多头注意分量通过使用不同的线性投影,将响应向量{(w1+P1),···,(wt−1,Pt−1)}的矩阵作为查询、键和值矩阵馈送。然后,响应的隐藏表示被计算为或在方程1中。然后,我们对响应使用掩码操作符进行训练。对于每个单词yt,我们屏蔽{yt+1,····,yM},只看到{y1,·····,yt−1}。为了进行推断,我们在生成的响应G上使用了loop函数。以tth生成为例。给定上下文C={s1,…,sN}和生成的响应{g1,·····,gt−1},我们将{g1,·····,gt−1}作为响应表示,以获得生成响应中的tth单词分布。

3.3上下文响应注意解码器

第三个多头注意组件将上下文注意表示作为键和值,并将响应隐藏表示或作为查询。输出表示为Od。我们还使用一个新的前馈网络来获得hid-den矢量Ofd,如第3.1.2节所述。最后,使用softmax层来获得生成的字概率过程。正式的,给定一个输入上下文序列c={s1,…,sN},相应响应序列Y={y1,·····,yM}是:

4.实验

在这一部分中,我们在中文客户服务和英文Ubuntu对话数据集上进行了实验来评估我们提出的方法

4.1.1数据集

我们在实验中使用了两个公共的多回合对话数据集。中国客户服务数据集,名为JDC,由京东大赛发布的515686对会话上下文响应对组成。我们将数据随机分成训练集、验证集和测试集,分别包含500000对、7843对和7843对。英文Ubuntu对话语料库是从Ubuntu问答论坛中提取的,该论坛名为Ubuntu(Lowe等人,2015)。原始培训数据包括2004年至2012年4月27日的700万次对话。验证数据为2012年4月27日至2012年8月7日的会话对,测试数据为2012年12月1日至2012年12月1日的阵风。我们使用正式的脚本来标记,干和柠檬化,并删除重复和句子长度小于5或长于50。最后分别获得398万、1万和1万对进行训练、验证和测试。

4.1.2基线和参数设置

采用六种基线方法进行比较,包括传统的Seq2Seq(Sutskever et al.,2014)、HRED(Serban et al.,2016)、VHRED(Ser-ban et al.,2017b)、Concat加权序列(WSeq)(Tian et al.,2017)、分层重复注意网络(HRAN)(Xing et al.),2018)和分层变分记忆网络(HVMN)(Chen等人,2018)。
对于JDC,我们使用中文单词作为输入。具体来说,我们使用Jieba工具进行分词,并将词汇量设置为69644。对于Ubuntu,词汇量设置为15000。为了公平地比较所有的基线方法和我们的方法,hid-den节点数都设置为512,批大小设置为32。对话圈的最大长度是15,句子的最大长度是50。ReCoSa模型的头数设置为6。Adam被用于优化,学习率被设置为0.0001。我们使用Tesla K80 GPU卡和Tensorflow运行所有模型。

4.1.3评价措施

在我们的研究中,我们使用定量指标和人为判断进行评估实验。具体来说,我们使用两种度量标准进行定量比较。一种是传统的指标,如PPL和BLEU分数(Xing等人,2017),用于评估生成的回答的质量。它们都广泛应用于自然语言处理和多语言对话生成(Chen et al.,2018;Tian et al.,2017;Xing et al.,2018)。另一种是最近提出的distinct(Li et al.,2016b),通过计算生成响应中unigrams和bigrams的数量来评估生成响应的多样性程度

对于人的评价,给定300个随机抽样的情境及其产生的反应,要求三个注释者(所有CS专业的学生)根据产生的反应与情境的一致性,对ReCoSa模型和基线(如赢、输、平)进行比较。例如,win标签意味着ReCoSais生成的响应比基线模型更合适。

4.2实验结果

现在我们在两个公共数据集上演示我们的实验结果。

4.2.1基于度量的评估

定量评价结果见表2。从结果可以看出,基于注意的模型,如WSeq、HRAN和HVMN,在BLEU和distinct-2度量方面优于传统的HRED基线。这是因为所有这些模型都进一步考虑了优化过程中上下文的相关性。HRAN使用传统的注意机制来学习上下文句子的重要性。HVMN使用一个内存网络来记住相关的上下文。但它们的影响都相当有限。我们提议的ReCoSa表现最好。以JDC数据集上的BLEU得分为例,ReCoSa模型的BLEU得分为13.797,显著优于HRAN和HVMN模型的BLEU得分,分别为12.278和13.125。
在这里插入图片描述
我们的模型的显著得分也高于基线模型,这表明我们的模型可以产生更多样化的反应。我们进行了显著性检验,结果表明我们的模型在中英文数据集上都有显著的改进,即p值<0.01。总之,与基线方法相比,我们的ReCoSa模型能够产生高质量和多样化的响应。
在这里插入图片描述

4.2.2人类评价

人因评价结果见表4。给出了与基线比较的赢、输、平的百分比,用以评价ReCoSa生成响应的质量。从结果中我们可以看出,赢的百分比总是大于输的百分比,这表明我们的ReCoSa模型的性能明显优于基线。以JDC为例示例。比较在HRAN、WSeq和HVMN条件下,ReCoSa获得了10.35%、25.86%和13.8%的偏好收益(赢减亏),分别是Kappa(Fleiss,1971)值的提出证明了不同注释器的一致性。我们还进行了显著性检验,结果表明我们的模型在两个数据集上都有显著的改进,即p值<0.01。
在这里插入图片描述

4.3相关语境分析

为了验证绩效改进是否是由于检测到的相关背景,我们进行了进一步的数据分析,包括定量评估和案例研究。具体来说,我们从JDC数据集中随机抽取500个上下文响应对,表示为JDCRCD4。三个注解者被雇佣(都是CSPhD的学生)根据人类的判断来标注每个上下文。**如果一个上下文句子与应答相关,那么它被标记为1,否则它被标记为0。**该标注数据集的kappa值为0.514,反映了不同注释者之间的一致性。
在这里插入图片描述
在这里插入图片描述

4.3.1定量评价

由于HRED将所有上下文都视为相关上下文,因此我们计算的错误率为评估。即1减去JDC-RCD数据中所有相关上下文的比例,即98.4%。因此,不分青红皂白地使用所有语境对于多回合对话的产生极不合适。

其他模型,如WSeq、HRAN和HVMN,将根据每个上下文的注意权重输出相关性得分。因此,我们可以将其视为一个排序问题。定量评价采用精度、重调用、F1评分等排名评价指标。然后我们计算了WSeq模型、HRAN模型和我们的ReCoSa模型的精度、前1、3、5、10名的重判和F1分数模型。模型结果见表3。我们可以看到,WSeq获得了最佳的得分第1页, R@1级以及F1@1。这是因为有80%的情况下,文章被标记为1,而余弦相似度可以排名明确相似的上下文句子为前1。虽然WSeq的得分最高F1@1层,对我来说效果不好F1@3层, F1@5层以及F1@10.那个这是因为WSeq可能会丢失一些与post不明显相似但与响应相关的上下文。与HRAN和WSeq相比,ReCoSa在大多数情况下表现更好。采取第3页例如第3页ReCoSa-head3的得分为26.2,显著优于HRAN和WSeq,分别为24.13和24.27。这些结果表明,我们的ReCoSa模型检测到的相关上下文与人类的判断高度一致。此外,我们计算了对反应的平均注意距离,定义为:
在这里插入图片描述
其中i是上下文句子的索引si和wi是第i个上下文的注意权重。人类标签中的dis2resp是0.399。人类注意力的分布是近似均匀的,包含长距离依赖和短距离依赖。ReCoSa中的dis2resp为0.477,比HRAN中的距离更接近人,如0.291。也就是说,我们的ReCoSa模型与传统的HRED注意模型相比,能够很好地捕捉到长距离的依赖性,验证了我们观点的正确性。

在这里插入图片描述

4.3.2案例研究

为了更好地理解我们的模型,我们给出了表5和表6中的一些例子,并绘制了我们的ReCoSa模型的热图,包括六个头部,从结果中分析图2和3中的注意权重,首先,我们可以看到,基于注意的模型比不加区别地使用所有上下文的模型表现得更好。以表5的示例1为例。使用所有上下文的基线很容易生成一些常见的响应,例如“我能为您做什么?”?“我很乐意为您服务。”。基于注意力的模型,即HRAN、WSeq、ReCoSa,可以生成相关响应,例如“应用”和“已经完成,系统无法拦截站点。”。我们的ReCoSa生成的响应更具体和相关,即“您的服务器订单尚未更新,请稍候。”。原因是,ReCoSA考虑了上下文的差异,它将侧重于相关上下文,即上下文1和context3。
图2显示了表5中示例1的热图。x坐标表示上下文1、上下文2和上下文3。y坐标表示生成的单词。颜色越浅,注意力的权重就越大。我们可以看到,ReCoSa更加关注相关语境,即语境1和语境3,这与人类的理解是一致的。

我们的模型在帖子(即最接近的上下文)和地面真相响应不在同一主题的情况下也表现良好。从表6的例子2中,基线都产生了不相关或共同的回答,比如“你还有其他问题吗?”和“好吧,我在找你!给你的回复不够及时,对不起!”。 这是因为基线模型在检测长距离依赖关系方面较弱。然而,我们的模型通过自我关注给出了更为相关的回答,并给出了“你可以申请销售、退货和再次下单”的具体含义机构图。图3显示了表6中实施例2的热图。例如2,上下文2是最重要的上下文,上下文1是最不用的上下文。我们可以看到,ReCoSa忽略了上下文1,而更关注上下文2。总之,我们的ReCoSa模型可以同时检测长距离依赖和短距离依赖,即使是在响应与post无关的困难情况下。

5.结论

本文提出了一种新的多回合对话生成模型ReCoSa。这种动机来自于广泛使用的基于HRED的模型对所有的语境都一视同仁,这违背了多回合对话生成的重要特征,即反应通常只与少数上下文相关。虽然有研究者考虑使用余弦等相似性度量或传统的注意机制来解决这一问题,但由于关联假设不足或位置偏差问题,检测到的相关上下文并不准确。我们的核心思想是利用自我注意机制来有效地捕捉长距离依赖关系。我们在中文客户服务数据集和英文Ubuntu对话数据集上进行了大量的实验。实验结果表明,该模型明显优于现有的HRED模型及其注意变体。进一步的分析表明,我们的模型检测到的相关语境与人类的判断有显著的一致性。因此,我们得出这样的结论:通过使用适当的检测方法,如自我注意,相关语境有助于提高多轮对话的生成质量。

在未来的工作中,我们计划进一步研究建议的ReCoSa模型。例如,可以引入一些主题信息以使检测到的相关上下文更准确。此外,可以在相关上下文中考虑详细的内容信息,以进一步提高生成响应的质量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值