(一)You Impress Me: Dialogue Generation via Mutual Persona Perception

摘要

尽管人们一直在努力提高闲谈对话系统的参与度和一致性,但当前的大部分工作只是专注于模仿类人的反应,而未对对话者之间的理解理解进行建模方面的研究。基于此,我们提出了一种P2BOT,这是一个基于收发器的框架,旨在明确地建立理解的模型。特别地,P2BOT包含了相互的角色感知,以提高聊天质量。个性化的对话生成。在大型公共数据集PERSONA-CHAT上进行的实验证明了我们方法的有效性,在自动指标和人类评价。

1.介绍

在这里插入图片描述

由于神经模型的进步和海量数据集的可访问性,开放域对话(即聊天)系统在模仿类人反应方面取得了长足的进步。然而,在构建可实现个性化的聊天机器人方面仍然存在一些严峻的挑战。提供引人入胜的对话并获得用户信任(Song等,2019)。例如,当前的聊天系统往往会产生无信息的响应(Li等,2016b),而且由于缺乏个性化特征,他们通常缺乏连贯的性格特征培训对话实际上来自各种各样的演讲者(Zhang et al。,2018b)。

为了缓解上述问题,人们进行了一些尝试,例如采用特殊奖励塑造以减少通用响应(Li等,2016b)以及用潜在变量代表说话者的方法(Li等,2016a),以提高参与者的参与度。提出了一种更直接的方法,该方法为聊天系统配备了预定义的角色,并提出了一个新颖的数据集PERSONA-CHAT(Zhanget等人,2018b)。图1显示了PERSONA-聊天:两个对话者第一次见面并进行对话以彼此了解.PERSONA-CHAT的独特之处在于,使用几个配置文件句子来明确描述两个对话者的角色,从而便于对聊天机器人进行可配置的培训和持久的个性。

PERSONA-CHAT对开发个性化对话生成方法的兴趣日益浓厚。 Mazaŕe等人(2018)结合了Reddit的其他数据来训练模型。 Wolfet等人(2019b)对预训练语言模型进行了微调(Radford等人,2018),以改善对话的产生。尽管这两部作品都显示出令人鼓舞的结果,但它们更多地侧重于模仿类人反应的风格,而未充分研究对话者之间明确建模理解的方面,相反,我们的工作采用了理解建模的观点。

根据认知科学的研究,有效的交流会在两个对话者的大脑中产生相似的激活图(Hassonet等人,2012),这表明在对话者之间的理解是进行高质量的聊天对话的基本信号。例如,在图1所示的对话中,两个对话者通过提出与角色相关的话题“最近看过好电影吗?”,或者通过回答问题来揭示自己的角色,从而增进理解。考虑到上述因素,我们提出了Persona Perception Bot(P2BOT),使用发送器-接收器框架显式地建模了对话者之间的理解。与传统方法不同的是,P2BOT突出了一种新颖的概念,即相互人格观,它更适合描述使对话者能够相互了解的信息交换过程。为了训练P2BOT以进行个性化对话生成,我们采用了监督训练和通过表征共同人物角色感知的奖励信号进行自我演奏微调。PERSONA-CHAT数据集上的实验证明了我们的方法在自动度量和人工评估方面均优于基线。

2.方法概述

在这里插入图片描述
P2BOT的核心思想是明确地模拟对话者之间的理解,并通过相互的角色感知来增强对话的生成。它由两个部分组成,发送器和接收器,分别负责对话生成和相互角色感知。图2给出了P2BOT的一个概述:对话者A有一个人物角色wA,用L-profile语句{wA1,····,wAL}描述。当她第一次遇到另一个对话者B时,他们将通过一个回合对话(xA1,xB1,···,xAN,xBN)认识对方,其中xAN表示A在第n回合所说的话,Ndenote表示总数转弯。给定整个对话的历史一直持续到turnhAn=(xA1,····,xBn−1),发送器根据分布p(xAn | wA,hAn)生成xAn,并将其发送给B。相同的过程适用于B,保持会话流动的谈话继续,印象是通过话语逐渐建立起来的。例如,当A说“我不看电影更多的是一个作家”时,“A是一个作家”的印象就留在B的脑海里。如上所述,成功的对话有助于对话者相互了解,这意味着B对a的印象应该与a的角色相一致,反之亦然。接受者的目的是测量建立的印象和实际人物之间的接近度。具体来说,如图2中的黑色虚线所示,接受者首先将印象和人物角色投射到潜在空间,然后基于印象编码(例如,HA,B在a上的印象,从话语xa)和人物编码(例如WA,从a的人物WA投射出来)2。关联核心作为相互的角色感知奖励,并被进一步纳入到传递者的训练中。第3节和第4节详细介绍了这两个部分。
在这里插入图片描述

3.Transmitter

根据之前的工作(Li et al.,2016b;Zhang et al.,2018b),我们将对话生成视为序列生成问题。具体来说,我们采用Radford等人(2018)提出的预训练变压器语言模型(即GPT)来初始化发送器。整个训练过程包括两个步骤:(1)有监督的对话生成。在有监督的对话生成任务中,我们通过最大似然估计(MLE)对发送器进行优化。(2) 自动播放模型微调。我们模拟了两个随机配对的对话者之间的对话,鼓励发送者通过强化学习(RL)学习最大化奖励信号的策略(Sutton等人,1999)。奖励函数的设计考虑了语言建模和我们提出的相互角色感知。

3.1监督对话生成

如图3所示,发送器遵循12个堆叠变压器层的总体架构来编码上下文并生成响应。在这里,上下文包含人物角色wA、对话历史hAn和几个特殊的标记(例如,[PS],表示人物角色的开始)。给定一个训练实例(wA,hAn,xAn),MLE的训练目标是使条件对数似然最大化:
在这里插入图片描述
其中θ是发射机的参数。xAn,t表示xAn中的第t个令牌,xAn,<t表示第t个令牌之前的令牌序列。方程式1,以下简化为log pθ(xAn | wA,hAn),适用于A和B,为了简洁起见,我们提到A(如下所示)。

在推理过程中,应用波束搜索来存储排名靠前的响应候选{xAn},然后发送器选择最大化归一化长度的一个作为预测得分。
在这里插入图片描述
除此之外序列生成任务,受Wolf等人(2019b)的启发,我们建立了一个辅助任务,下一个话语预测。除了训练传送器产生反应外,我们还训练传送器辨别反应是否是给定上下文的下一个话语。具体地说,我们在生成的令牌的尾部附加一个特殊的令牌[CLS]。分类器构建在最后一个
transformer层中令牌的隐藏状态之上,如图3中红色圆角矩形所示。在训练中,对于每一个反应,我们随机抽取一个干扰因素,训练分类器在反应上给出比干扰因素更高的分数。在推理中,使用分类器将响应候选项与等式2一起排序。表示为yn=1,表示生成的响应ˆxAn的信号被预测为下一个话语,等式2扩展为:
在这里插入图片描述
其中α是超参数。

3.2自弹模型微调

尽管有监督的对话生成本身可以用来模仿人类的反应,但它并不以理解为目标。因此,我们进一步微调发射器使用强化学习的目标是最大限度地扩大双方的人物角色感知。与Lewis等人(2017年)类似,我们采用自演模拟两个发射器之间的通信,这两个发射器都经过了第3.1节中所述的培训。具体来说,我们让两个发射器相互通信几圈。一个发送器充当冻结参数的用户,而另一个发送器是可学习的代理。可学习代理的参数θ在自演过程中被微调。在不丧失一般性的前提下,在我们的实验中,我们让对话者A开始对话,作为用户,相应地,B是可学习的代理。

这里我们介绍了一些必要的公式,用于用强化学习来建模我们的问题。一个国家包含人物角色和对话历史。例如,n圈处的B的状态定义为sBn={wB,hBn}。动作aBn是要生成的响应。由于响应可以是任意长的,所以动作空间是无限大的。以sBn为输入,参数θ定义了策略pθ(aBn | sBn),通过该策略,可学习代理生成响应,如图4所示,当轮到B发言时,B接收sBn,并根据策略pθ选择aBn。对于A,它接收sAn并生成响应xA*n以模拟用户。A和B交替产生响应,直到转动次数超过给定的限制。一旦生成完整对话,将收集奖励,以使用政策梯度优化θ(Sutton等人,1999)。当R(aBn)表示n轮时得到的奖励B(后面提供更多细节),我们可以通过最大化以下目标来优化它:
在这里插入图片描述

应用似然比技巧,θ通过以下升序更新坡度:如上所述,作用空间aBn是无限的。
在这里插入图片描述
在实际应用中,通过从策略pθ(aBn | sBn)中采样aBn,将强化算法(Williams,1992)应用于近似方程5。此外,将基线减去(Weaver和Tao,2001),这里是一个小批量的平均报酬,应用于R(aBn)以减少方差。代理通过对B的输出分布进行多项式采样逐个标记,直到对特殊令牌EOS进行采样或超过允许的最大解码步骤(例如32)。与波束搜索采样相比,多项式采样提供了更多的多样性。

3.3奖励塑造(RS)

如第1节所述,我们认为一个高质量的聊天会话应该同时强调人类语言建模和相互角色感知。有鉴于此,我们设计了三个奖励来处理语言风格、语篇连贯性和相互的角色感知分别为.1语言风格所产生的反应应该符合人类的语言风格,我们相信这可以通过预先训练的语言模型(即GPT)来评估。长度归一化后,aBn得分为:

在这里插入图片描述
其中aBn,t和aBn,<t与前面提到的xAn,t和xAn有相似的指称,<t.RS.2语篇连贯语言分数是单独评估的,不考虑语篇连贯。然而,一个合理的回应应该在意义上与语境建立联系,这也是类人回应的一个重要方面。为了考虑语篇的连贯性,我们使用了训练有素的下一个话语预测词(见第3.1节)。奖励由aBn成为sBn下一个话语的对数概率给出:

在这里插入图片描述
RS.3相互角色感知RS.1和RS.2仅引导代理培训过程向类人响应方向发展。它们并不明确鼓励对话者。因此,我们精心设计了奖励来描述相互的角色感知。与RS.1和RS.2相比,在整个对话过程中,相互的角色感知是一个长期目标,这意味着当前行动的效果可能只会在一段时间后发挥出来。例如,收到“你的爱好是什么?”?“从B来看,A的反应很可能与A的爱好有关。这表明,不仅A的回答,而且B的初始问题都有助于相互的角色感知。表示为γ的贴现因子,表示B向前看多远,aBn的相互角色感知回报定义为:
在这里插入图片描述
其中r(aBn)是B在第n轮中获得的人物角色感知得分,r(xA*k)的定义类似。r(aBn)可以使用得分函数计算:

在这里插入图片描述
在p2bot中,得分函数来自接收方,第4节将详细说明。aBn的最终奖励R(aBn)是上述奖励的加权总和:
在这里插入图片描述
其中λ1、λ2和λ3是超参数。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值