AAMAS 2023|三思而后行:一个类人的用于情感对话生成的两阶段对话代理

6bef180611a7ef9446b8fafbdf4366af.gif

©作者 | 钱宇珊、王博等

来源 | 社媒派SMP

4ca0ac5ef2b518c4e2246210d49a19b9.png

论文标题:

Think Twice: A Human-like Two-stage Conversational Agent for Emotional Response Generation

论文链接:

http://arxiv.org/abs/2301.04907

论文作者:

钱宇珊(天津大学)、王博(天津大学)、马尚朝(天津大学)、吴斌(起硕智能)、张硕(起硕智能)、赵东明(中国移动)、黄堃(中国移动)、侯越先(天津大学)

收录会议:

The 22nd International Conference on Autonomous Agents and Multiagent Systems. (AAMAS 2023)

5f8c279260ac0de7578b281cd165dea1.png

背景

在开放域对话场景中,融入一些特定因素(如个性、知识、情感等)可以有效提升对话质量。情感对话旨在人机对话中生成能够感知和表达适当情感的回复,大量研究表明包含情感的对话在人机对话系统中可以显著提升用户的满意程度。当前的情感对话方法主要基于神经网络模型,通过端到端的方式,在对话回复中共同建模语义和情感。

然而,目前的端到端情感对话模型依旧面临几个挑战:首先,高质量大规模的情感标注对话语料很难获得,人工标注的成本很高。其次,端到端的模型,在解码过程中由于情感向量的约束,会影响回复生成的语义和范围,加剧了安全回复问题。最后,不少模型生成的回复存在相应情感状态表达不明显或者实际情感状态不符合预期的问题,输入的情感信号往往在复杂的学习过程中被削弱,概括地说,是对情感的可控性不强。

bd21fee1e43fa646d5e427d26c9c0dc4.png

为了解决上述问题,本文参考人类真实对话行为,提出了一种生成情感回复的策略。当人类在对话中进行回复时,同时处理情感和语义不一定能确保满意的结果,产生合适的情感回复的方法之一是在确定回复的语义后,再去单独考虑情感的选择,即,对情感的“三思”。

如上图所示,每个回复首先有一个适当的语义来回应上文语境。然后,通过对上文语境的再次确认,从情感层面调整回复。调整回复时考虑采用“Rewrite(改写)”和“Add(增写)”两种方式,对同伴的情感状态做出回应。具体来说,首先在没有情感标注的对话语料上训练生成符合上文语义的原型回复。然后,在第二阶段利用一个具有共情假设的可控情感精炼器修改原型回复。

在 DailyDialog 和 EmpatheticDialogues 数据集上的实验结果表明,本文所提出的对话模型在情感生成方面优于基线模型,并在自动和人工评估中显示出保持语义性能的能力。本文所提出的对话模型的架构如下图所示。

6bc03fff85a4199720df0fc512ad571a.png

7b87ceae5761118b26572ba5db1e7389.png

对话模型总体框架

对话模型由三个模块构成:1)原型语句生成器。该模块将上文语境作为输入,生成一个原型回复;2)对话情感检测器。该模块对上文语境作为输入进行情感分析,得到情感状态集,用来指导最终回复的情感;3)可控情感精炼器。该模块根据情感状态集对原型回复进行精炼,生成一定程度上兼具语义和情感的最终回复。 

原型语句生成器:该模块使用具有大规模参数量、可微调的预训练模型作为原型语句生成器,以此来生成内容相关,表达丰富,与上文语境一致的回复。具体而言,本文选择了 12-to-48 层 DialoGPT 作为原型语句生成器的基础模型,将上文中的所有语句以“<|endoftext|>”拼接成一个长句子作为整体输入,目标原型语句的条件分布是一系列条件概率的乘积:

a79a968f942fe15c03f99f2ad75a0892.png

对话情感检测器:作为共情的一个直观假设,倾听者倾向于以一种承认说话者感受的方式做出回应,通过呼应说话者的情感,达到一定程度上的共情。对话情感检测器的目标是识别对话上文语境的情感状态,利用上述提到的日常对话中常见的共情原则,根据识别出的上文语境中的情感状态分布将期待的情感传给可控情感精炼器:

91e82b1c62e5fcb2295cdb95863e21cb.png

其中, 是每个对话上文语境的情感状态集。 表示情感状态集中每类情感属于积极情感状态的个数, 表示情感状态集中每类情感属于消极情感状态的个数。

对话情感检测器识别对话上文情感的部分主要基于 DialogueGCN,将对话中每个语句作为图网络的结点,语句结点与语句结点之间通过有向边连接,边的方向根据语句的序列先后决定。这些有向边用于建模说话者以前说过的话和他人说过的话对说话者自己的情感影响。

模型利用 Glove 编码和 CNN 抽取语句的特征,得到每个语句 的编码,也就是每个结点的向量。每个语句之前有 b 句话,之后有 a 句话,代表每句话的结点和 a+b+1 个结点(包括自身)有边,每条边的权重 由结点之间的关系程度得到:

5a38a59e7c96b88a314e3f959e65a6aa.png

最后,将来自序列编码器 sq 和说话者编码器 sp 的编码拼接起来,结合基于相似性的注意力机制获得语句结点的最终编码。然后用全连接网络进行多个情感类别(happy, sad, neutral, angry, surprise, disgust, and fear)的分类:

5bf96069de02595f6a2139afa30012df.png

关于该模块的更多细节请参考论文。 

可控情感精炼器:该模块将原型回复和期待的情感作为输入,生成最终回复。需要学习的目标可定义为:

18cf5558b649598af9c207a5802d89d0.png

可控情感精炼器由两个模块组成,“改写”模块和“增写”模块。“改写”模块通过将句子中的原始情感符号替换为表示目标情感的符号来转换原型回复的情感属性。“增写”模块通过添加额外的句子来调整情感状态。

具体来说,“改写”模块由两个部分组成。第一个部分是删除部分,它用来确定输入中的每个 token 是否为情感属性词,学习输入中的情感部分和非情感部分,并删除情感部分。采用 Transformer 的注意力机制提取注意力得分作为每个 token 的权重:

cb7f8ab825590efb0ef0b38fee791a1f.png

第二部分是生成部分,生成部分的输入是原型回复和目标情感。输出的是一个符合目标情感的句子。生成部分采用 Transformer 结构,在不需要并行语料的情况下,生成部分的训练目标是最小化下列重构损失:

fa581a5b222f8eb87e32b1750cec5ca9.png

“增写”模块在 PPLM 的工作基础上构建,通过添加具有指定情感的额外句子来改变原始句子的情感极性。借助贝叶斯规则,可以使用模型 和模型 来表示模型 :

d8755e512184501c68d31ffd48ac3810.png

选择器用于确定是来自“改写”模块还是“增写”模块的回复作为最终输出。选择器使用 GLEU 与原型回复进行比较作为判断回复总体效果的依据。选择器会选择 GLEU 分数较高的回复作为最终回复。

关于该模块的更多细节请参考论文。

72165ddbffb0e7328358dc9802213b30.png

实验结果

本文使用 DailyDialog 和 EmpatheticDialogues 数据集进行实验。在评价指标方面,自动评价采用了 BLEU、Diversity 和 Emotion Accuracy(Acc),人工评价采用了 Content(Con)、Emotion(Emo)、Emotion-intensity(Int) 和 Fluency(Flu),具体指标定义请参考原论文。 

基线模型选用了通用模型、情感对话模型和共情对话模型。DailyDialog 和 EmpatheticDialogues 数据集的实验结果分别显示在表 3 和表 4 中。

0897cfb0201f80dac68821b639d1b4cb.png

07083d54fda6cc260d4b6acba3052c20.png

可以观察到,在情感生成的性能方面,本文所提出的对话模型在两个数据集中的自动评估指标 Acc 和人类评估指标 Emo 方面都优于所比较的基线模型,表明在情感生成方面的性能表现优异。此外,本文提出的对话模型在 DailyDialog 和 EmpatheticDialogues 数据集的 Int指 标上分别取得了最优和次优结果,也证明了在表达情感强度方面的优势。

在语义生成性能方面,对话模型在 BLEU-4 和 Con 指标上达到了最高水平,在 Dist-1 和 Dist-2 指标上得分也适中。这些结果证实了本文提出的对话模型在显著改善情感表达的同时保持了适当语义。

本文也展示了消融研究的实验结果,如表 5 所示,可以观察到删除 Add 模块或 Rewrite 模块都会导致大部分指标下降。这表明,结合“改写”和“增写”策略符合人类语言显式和隐式的表达特点,有助于产生合适的回复。此外,对话情感检测器在情感回复生成中也发挥着重要作用,它优于将上文连接成长句或仅识别单个语句。

cc01e4750158e5676006e7febab3bba5.png

此外,对于抽样的 100 个人类评估样本,本文还比较了原型回复的情感和精炼后的回复的情感在所提出的对话模型中的正确性和显著性。如下图所示,左栏和右栏分别表示原型回复和精炼后的回复。红色和蓝色列分别表示正确(即与上文情感分布一致)和错误的情感。列的长度表明了情感的重要性。结果表明,精炼后的回复提高了原型回复中情感的正确性和显著性。

160f4d9fdb8aed15d1e47cd8d147fed1.png

本文同时也给出了实验的样例分析,如下表所示,展示了从所有七个模型中抽取的一些生成回复的案例,相应的上文没有出现在训练集中。从中可以观察到,其他基线模型生成的回复具有情感表达,但语义层面上并不具有特异性。

相比之下,本文提出的对话模型生成的回复不仅继承了上文语境的语义,同时也包含了丰富而恰当的情感。如 EmpatheticDialogues 数据集上的案例 1,对话模型生成的回复既表达了对将问题报告给经理的方法的不确定的语义,同时也以委婉的方式表达了合适的情感。具体的实验分析和相关细节可参考论文。

更多阅读

ebb2300520d32619b0e4dcb4d7643fe1.png

4219119c1ca4dca3bb1c7be45c3bb562.png

c9551d7f44bfdd06b7ab7cdfb6c7a019.png

eafb87c1da8f2cdadfcc900855d63276.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

c933ee5eab8c63f4a481d48f1a2439e6.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

4aa298e04ecf6b48b8a0a4a1c29843a4.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值