Automatically Select Emotion for Response via Personality-affected Emotion Transition

在这里插入图片描述

摘要

为了与用户提供一致的情感互动,对话系统应具备自动选择适当情感以回应用户的能力,就像人类一样。然而,大多数现有的研究侧重于在回应中呈现指定的情感或对用户的情感作出共情性回应,然而却忽视了情感表达的个体差异。这可能导致情感表达不一致,并使用户失去兴趣。为了解决这个问题,我们提出为对话系统增加个性特征,并使其能够通过模拟人类在对话中的情感转变来自动选择回应中的情感。这一转变是由先前的对话背景触发的,并受到特定的个性特征的影响。为了实现这一目标,我们首先将对话系统中的情感转变建模为前一情感与响应情感在Valence-Arousal-Dominance(VAD)情感空间中的变化。然后,我们设计神经网络来编码先前的对话上下文和指定的个性特征,以生成变化。最后,用于回应的情感是从先前情感和变化的总和中选择的。我们构建了一个带有情感和个性标签的对话数据集,并进行了情感预测任务以进行评估。实验结果验证了个性影响的情感转变的有效性。

1 介绍

情商可以被认为是一种与情绪信息进行有效推理的心理能力,以及情绪增强思维的行为(Mayer,2004)。因此,为了在交流过程中创建具有情商的对话系统,有必要使机器能够理解用户的情绪,选择适当的反应情绪,并在对话中表达。

现有的研究要么侧重于在回应中呈现指定的情感(如Zhou等人,2018;Colombo等人,2019),要么关注于理解用户的情感并以共情方式回应(如Zandie和Mahoor,2020;Zhong等人,2020;Lin等人,2019);但是如何自动选择回应的情感却很少被讨论。Wei等人(2019)提出从大规模的匿名在线对话中学习适当的情感回应。然而,在来自不同说话者的对话上进行训练后,对话系统却忽略了表达情感的个体差异。这可能导致情感互动的不一致性,并使用户失去兴趣,因为他们可能感觉自己仍在与死板的机器进行对话。

在对话系统中,自动选择回应的情感是决定表达的情感,以促进情感响应生成。情感选择可以被建模为情感转变(Thornton和Tamir,2017),它指的是对话系统在对话背景下如何从先前的情感变化到下一个情感。为了像人类一样实现这一点,需要与个体相关联的长期思维和行为模式(Ball,2000)。Mehrabian(1996a)表明,个性,例如五大人格模型(Costa和McCrae,1992),也可以在情感的Valence-Arousal-Dominance(VAD)空间中表示为性格(Mehrabian,1996b)。这一发现表明,不同的个性对情绪表达有不同的影响。受这些作品的启发,我们提出了一种受个性影响的情绪转换模型去赋予对话系统个性特征,使其能够选择受其特定个性影响的与对话背景相匹配的情感。

在我们的方法中,我们将对话系统的情感转变建模为在VAD空间中从其前一个的情感到对用户的响应中的下一个情感的变化。我们首先从对话上下文中获取对话系统的前一个情感,并将其投影到VAD空间中作为情感向量。同时,我们赋予对话系统一个人格特征,一个5维向量,代表五大人格特征中的每个维度的强度。然后,我们设计神经网络,将对话语境和个性特征编码到VAD空间中,以生成情感的变化。最后,基于前一情感和变化的总和选择用于回应的情感。

为了便于相关研究,我们构建了个性情绪线数据集(PELD),其中包括6510个日常对话三元组,其中带有情绪标签和标注的个性特征。情感标签和个性注释采用了其他研究(Poria等人,2018;Zahiri和Choi,2017;Jiang等人,2019)对一部著名电视剧《老友记》的剧本进行分析。我们在PELD数据集上进行情绪预测任务,以评估该方法的有效性。研究结果表明,受人格影响的情绪转换确实有助于提高情绪选择的准确性。综上所述,我们的贡献如下:

  • 我们提出了在对话中自动选择情绪作为反应的问题,并提出了一个新的视角,通过受个性影响的情绪转换来解决它。
  • 我们构建了一个带有情绪和人格标签的对话脚本数据集,并分析了我们的数据集中的情绪转换模式,以促进相关研究。
  • 我们评估了我们提出的方法在情绪预测任务上的有效性,并分别分析了个性和情绪转换的影响。

2.1情感对话系统

情感对话系统的概念首次出现在(Colby,1975),其中提出了一个基于规则的情感模拟聊天机器人。微软在2014年推出了小冰(Zhou et al.,2020),这是一款能够识别用户情感需求的富有同情心的社交聊天机器人。随着Zhou等人(2018)提出情绪聊天机,利用深度学习方法构建一个大规模的情感感知对话机器人,相关研究变得流行起来。现有的研究大多集中于将指定的情绪因素纳入到神经反应的产生中。Shantala等人(2018)基于上下文训练情绪嵌入,然后将它们整合到反应生成中。Conomobo等人(2019)在VAD空间中通过分类情绪表征和连续词表征控制情绪反应的产生(Mo罕默德,2018)。此外,Asghar等人(2018)提出了一种情感多样化的波束搜索来解码。此外,还采用强化学习来鼓励反应生成模型来呈现特定的情绪。Li等人(2019)将强化学习与情感编辑约束结合起来,以产生有意义和可定制的情感回答。(Sun et al.,2018)也使用情绪标签来部分奖励模型来表达特定的情绪。

然而,在实际应用场景中,始终为对话系统指定回应的情感是不切实际的。为了模拟人类之间的情感互动,Wei等人(2019)设计了一个情感选择器,从大量的对话对中学习为回应选择适当的情感。但是,情感表达是主观的,对于相同的帖子,不同的用户在回应中可能有不同的情感。因此,仅从在线对话中学到的模式忽略了用户信息,变得不切实际。

2.2 个性对情绪的影响

情感是一种复杂的个人心理状态与人互动或环境影响时的心理体验(Han et al.,2012)。情感是个体在与人或环境影响相互作用时的复杂心理体验(Han等人,2012)。愉悦-激活-支配(PAD)(Mehrabian,1996b)或者Valence-Arousal-Dominance(VAD)情感性格模型显示了三个几乎正交的维度,提供了对情感状态的全面描述。基于此,一些心理学家研究了人类情感因素与个性因素之间的关系。然而,其中大多数是基于规则的模型(Johns和Silverman,2001)和概率模型(André等人,1999)。Mehrabian(1996a)利用人格的五个因素(Costa和McCrae,1992)通过线性回归分析来表示VAD性格模型。这一发现被广泛用于设计具有与用户进行非语言情感互动的机器人(Han等人,2012;Masuyama等人,2018),其中机器人的预定义的个性影响它们模拟情感转变的倾向。

为了将上述分析整合到人工智能领域,一些人机交互领域的研究人员借鉴了这一思想,并为类人机器人设计了面部情感表达。Ball(2000)利用以贝叶斯网络编码的情感和个性模型,生成对话中对用户的共情行为或语音响应。Han等人(2012)将五个人格因素应用于一个2D(愉悦-激活)缩放模型,以表示机器人的情感模型。Masuyama等人(2018)为机器人表达情感引入了一个情感影响的联想记忆模型。然而,在自然语言处理领域,尽管在一些研究中采用了VAD空间来建模情感(Mohammad,2018;Colombo等人,2019;Asghar等人,2018),但在对话中个性对情感的影响仍然是一个未解决的问题。

3 方法

3.1 问题定义

我们研究了使对话系统通过受个性影响的情绪转变自动选择情绪进行反应。形式上,用户和对话系统之间的双方情感对话包含对话上下文 C = {U1, U2, …, Un−1},其中包括来自用户和对话系统的前 n - 1 个话语。其中,Ui ∈ C 表示对话系统的最后一次话语,表达的情感是前述情感 Ei,而对话系统的响应情感 Er 用于生成对用户的下一个情感响应 Un。我们为对话系统指定一个个性特征 Pn,并通过个性影响的情感转变模型 FET 使其能够选择响应情感 Er
在这里插入图片描述
其中Er是从Ei转换过来的。该转换由前面的对话上下文C触发,并受到指定的个性特征Pn的影响。在下面的内容中,我们将详细介绍我们如何建模这个过程。

3.2 准备工作

3.2.1 在VAD空间中的情绪

假设在上述问题中,所有情感话语中的情感都可以归类为六种基本情感:(Anger, Disgust, Fear, Joy, Sadness, Surprise)愤怒、厌恶、恐惧、喜悦、悲伤和惊讶(Ekman和Davidson,1994)。我们将这些基本情感投影到Valence-Arousal-Dominance(VAD)空间中,如表1所示,参考了(Russell和Mehrabian,1977)中的分析结果。VAD空间表示情感强度的三个不同维度,其中价值(Valence)衡量积极/消极,唤醒(Arousal)衡量兴奋/冷静,支配(Dominance)衡量强大/弱小。至于那些没有明确情感的话语,我们使用(0.00,0.00,0.00)的中性向量作为VAD向量。
在这里插入图片描述

3.2.2个性在VAD空间

与此同时,五大个性特征(OCEAN,在表2中显示)被广泛用于心理分析。Mehrabian(1996a)提出了一个气质模型,如公式2所示,通过线性回归得出个性特征的VAD量表,其中O、C、E、A、N分别代表五大个性特征的强度。
在这里插入图片描述
在这里插入图片描述

3.3受个性影响的情绪转变

基于上述问题的定义和初步工作,我们设计了个性影响情绪转换模型,如图1所示。我们的模型主要包括三个模块:左下半部分的个性对情绪的影响,右下半部分的上下文编码,以及图1中上半部分的情绪转换。我们将详细介绍这三个模块,如下所示。
在这里插入图片描述

3.3.1个性对情绪的影响

在我们的模型中,对话系统的个性被指定为一个5维向量Pn = [O,C,E,A,N],分别代表五大性格特征的开放性、认真性、外向性、同意性和神经质(Openness, Conscientiousness, Extraversion, Agreeableness, Neuroticism)的强度。

VAD空间中的个性气质(如方程2所示)被广泛用作人机交互工作中机器人情感转变的加权参数(Han等人,2012;Masuyama等人,2018)。然而,方程2中的数值系数是从72名参与者的问卷调查结果中总结出来的(Mehrabian,1996a),不适合直接作为模型设计中的超参数。因此,我们选择将方程2中的分析结果作为先验知识,并通过神经网络学习适当的个性系数。首先,我们仍然通过方程2从个性Pn计算 P V ′ P^{'}_V PV P A ′ P^{'}_A PA P D ′ P^{'}_D PD;然后,我们将 P V ′ P^{'}_V PV P A ′ P^{'}_A PA P D ′ P^{'}_D PD作为初始化输入,通过一个调节层Ap学习适用于训练数据的加权参数PV、PA、PD

3.3.2上下文编码

对话上下文作为一组参数,可能会影响一个人在表达某种情感时说出一个话语(Pouriaetal.,2018)。在VAD空间中,情绪的转换被认为是从一个点(前一种情绪)到另一个点(下一个情绪)的变化。因此,我们从前面的对话上下文C的语义表示中生成情绪转换变化∆V、∆A、∆D。
在这里插入图片描述
我们微调预训练RoBERTa(Liu et al.,2019)编码器,一个著名的预先训练的语言模型的性能广泛验证在许多自然语言理解任务,首先提取在C中的n-1个语义表示En(U1),…,En(Un−1),然后,我们连接话语的语义表示来获得整体上下文语义Rc。最后,通过将Rc输入情感编码器Ea,分别从Rc中提取V、A、D等方面的情感信息,计算∆V、∆A、∆D

3.3.3情绪转换

得到加权参数PV、PA、PD和情绪转换变化∆V、∆A、∆D后,反应情绪由上述情绪的VAD向量与加权变化之和产生,如式4所示。
在这里插入图片描述
其中,Vi,Ai,Di是Ei的VAD向量,而Vr,Ar,Dr是VAD空间中的情绪转换结果。为了减少在计算的VAD向量中使用数值的误差,我们添加了一个线性层Fc,将Vr,Ar,Dr转换为离散情绪类别上的概率分布。输出的Er是概率最大的情绪。

4 PELD数据集

4.1 数据集的构建与统计

为了促进相关研究,我们构建了个性情感线数据集(PELD),这是一个带有说话者个性特征的情感对话数据集。由于在社交媒体上标记具有说话者个性的在线对话是耗时的,可能会引起隐私问题,我们转向研究著名电视系列《老友记》的对话剧本。这一经典剧本在许多对话研究中被广泛分析(Li等人,2016;Li和Choi,2020;Jiang等人,2019)。

在PELD中,每个样本被表示为一个对话三元组(C = {U1,U2,U3},{Ei,Er},Pn),如图2所示),作为一个双人对话。
在这里插入图片描述
Ei和Er分别是在U1和U3中表达的情绪。话语及其情感标签主要采用了MELD(Poria等人,2018)和EmoryNLP数据集(Zahiri和Choi,2017)中分析《老友记》中情感表达的对话。为了保持一致性,PELD中的每个对话三元组都是在原始数据集中的相同对话中构建的。

数据集中的个性特征来自711个不同对话中的个性注释。参照注释,一个角色可能在不同的对话中表现出不同的个性。为了简化,我们只保留了《老友记》中六个主要角色的个性特征,因为这些注释是最频繁的。对于每个主要角色,用下面平均值公式来简化他们在所有对话中的注释个性特征,其中K是注释的数量。平均的结果显示在表3中。
在这里插入图片描述
在这里插入图片描述
我们将PELD分成训练、验证和测试集,大约在8:1:1左右。PELD中的话语总数(10648)小于原始MELD(13708)和EmoryNLP(9489)的总和,因为并不是所有的对话都适合构建包括主要角色在内的三元组。数据集的总体统计数据如表4所示。
在这里插入图片描述
类似于现有的情感对话数据集(Li等人,2017;Busso等人,2008),PELD也存在情感不平衡的问题。被标记为中性的话语占据了大多数,而恐惧和厌恶只占很小一部分。尽管这反映了日常对话中真实的情感分布,但也给机器学习模型识别和生成情感带来了挑战。我们尝试了一些数据增强的自动方法,如同义词替换、回译,或者在(Wei和Zou,2019)中提出的EDA。但大多数虚构样本要么异常,要么与原始样本相同。原因可能是对对话中短句话语的操作有限,如同义词取代,添加或删除单词。

另一种缓解不平衡问题的方法是将情感的粒度扩展到极性(emotion to sentiment)。如3.2所述,在VAD空间中,情绪的Valence维度衡量的是积极和消极,我们可以根据Valance的值将情感分为极性:即积极情绪:快乐和惊喜;消极情绪:愤怒、厌恶、恐惧和悲伤。因此,PELD中极性的分布也如表4所示。此外,六个主要角色的对话三元组(每个三元组对应于个性特征的一个主要角色)平均分布在PELD中的所有训练、验证和测试集。

4.2 PELD中的情感转换

在构建了PELD后,我们进一步探索了情绪转换方面的数据集。因为PELD中的三元组用于分析U1中的Ei和U3中的Er之间的情绪转换。表5分别显示了U1和U3中的情感和极性分布(emotion and sentiment)。此外,我们还将U1和U3的情绪记为S1和S3。我们可以看到,对于情绪和极性,U1和U3的分布是相似的,这意味着情绪的过渡和极性的PELD三元组是合理的的。此外,所有情感和极性的比例也与PELD的总体统计数据相似,说明PELD中的情感和极性也平均分布在三元组中。
在这里插入图片描述
由于情绪转换受到上述个性特征的影响,我们在图3中展示了具有不同个性特征的不同角色的情绪转变模式。虽然情绪转换也与对话上下文相关,但我们仍然可以通过这些转换矩阵找到模式。

在这里插入图片描述

总体而言,在六个转移矩阵中,所有的第一列都呈深色,这表明大多数转移发生在其他情感到中性的过程中,因为中性是PELD中的主要情感。此外,具有深色的区块在转移矩阵的对角线附近或在对角线上更有可能出现;这表明先前的情感倾向于过渡到相同或相似的情感。至于个别角色,来自Rachel的0.59的愤怒在对话三元组中保持不变,而对于其他角色,大多数来自愤怒的情感都转移到了中性和愤怒。此外,Ross的大多数惊讶情感转移到了惊讶、中性和喜悦,但其他五个角色的大多数惊讶情感倾向于只转移到惊讶和中性。

此外,为了详细突出六个主要角色之间情感转变的个体差异,我们还展示了六个主要角色的情感转移矩阵中每一行的标准差(Std),如图4所示。红色条形图展示了情感转移矩阵中每行的无穷范数的标准差,这表明了不同角色在情感转移中从相同情感最有可能转移到的情感的多样性。而蓝色条形图显示了L2-范数的标准差,它通常描述了不同角色在从一种情感到其他情感的转移中的差异。
在这里插入图片描述

这两个图表都显示了相似的情绪转变模式。在交谈中,愤怒、惊讶和厌恶在不同的角色中差异最大,而人们在中性和快乐情绪转变过程中更常见。此外,消极情绪(愤怒、悲伤、恐惧和厌恶)在平均水平上相对高于积极情绪和中性情绪。因此,我们可以推断,个性特征对负面情绪产生的情绪转移的影响更大

5 实验

5.1 评估任务

为了验证我们提出的情绪生成模型的有效性,我们设置了两个评估任务:情绪预测和PELD上的极性预测。情绪预测要求模型根据前面的对话上下文,在双人对话场景中预测即将到来的话语中的情绪;而极性预测预测即将到来的话语中的极性。

对于这两项任务,我们通过单个情绪或极性的F-scores来评估预测性能。此外,整体性能也从两个方面来衡量,即宏观平均(m-avg)和加权平均(w-avg)F-scores。较高的m-avg表明该模型对所有类别的预测表现相对较好,而较高的w-avg表明该模型对数据集中比例较大的情绪或极性的预测较好。

5.2 消融研究设置

虽然有很多方法(Majumder等人,2019;Ghosal等人,2020,2019)被提出来分析《老友记》对话中的情绪,但他们的大多数目标是识别对话中话语的情绪。与情绪识别相比,在不知道回复内容的情况下,选择合适的回复情绪更为困难。因此,我们不与其他情绪识别模型进行比较,而是进行消融研究来评估我们模型设计的不同部分的有效性。消融研究比较了以下模型的性能:

RoBERTa: RoBERTa(Liu et al.,2019)是一种著名的为自然语言理解而设计的预训练语言模型。其性能在许多下游任务中被广泛验证。在这里,我们使用预先训练好的RoBERTa,对前面的对话上下文进行编码,获得语义表示作为输入,然后通过分类头直接预测反应的情绪。

RoBERTa-P:我们将说话者的个性格向量表示与RoBERTa的对话上下文表示连接起来作为特征,然后预测反应情绪。该方法是为了评估个性是否会影响情绪的表达。

PET-VAD:由于情绪可以用离散的类别标签或VAD空间的向量来表示。PET-VAD的设置是为了比较情绪VAD向量在模型中的不同用法。在训练期间,PET-VAD通过最小化生成的向量和真实情绪的VAD向量之间的平均平方误差(MSE)来回归目标情绪的VAD向量。PET-VAD的预测输出是用MSE衡量的生成的VAD向量的最近邻居的情绪。

PET-CLS:这是文章的方法Personality-affected Emotion Transition,在获得生成的情绪的VAD向量后,使用分类器进行分类。PET-CLS预测即将到来的话语中的情绪。

对于RoBERTa、RoBERTa-P和PET-CLS直接输出离散的情绪,我们采用Focal loss(Lin et al.,2017)来缓解不平衡的情绪预测。

6 结果及分析

在本节中,我们报告并分析了在我们的消融研究中使用PELD测试集的实验结果。所有的结果都是在50个epoch的训练中在验证集上表现最佳的选择。

6.1 情绪预测的结果

情绪预测任务的结果见表6。首先,由于七类预测任务也存在不平衡问题,因此整体性能中等偏低,这也表明了任务的难度。在平均 F-scores方面,PET-CLS比其他方法显著提高了w-avg和m-avg,验证了我们的个性影响情绪转换方法。

在这里插入图片描述
详细地说,所有模型在较大部分(中性和喜悦)的情绪上表现更好,因为它们更有可能出现在响应情绪中。 此外,PET-VAD 和 PET-CLS 在少数情绪(愤怒、悲伤、厌恶、恐惧和惊讶)上的F-scores较高,这表明情绪转换过程在产生这些少数情绪时更为重要。它还验证了第4.2节中的发现。

另一方面,尽管PET-VAD是基于设计的受个性影响的情绪转换,但PET-VAD的大多数单一情绪的F-scores都低于RoBERTa或RoBERTa-P。一个原因可能是在直接回归情绪VAD向量时不能缓解不平衡情绪的问题。另一个原因可能是表1中的情绪VAD向量的值是估计的,而不是精确计算的,理论VAD空间中不同情绪之间的距离与日常对话中的情绪分布不相似

6.2 极性预测的结果

由于存在多个不平衡的类别,因此要预测即将到来的反应的情绪是困难的,我们也在表7中报告了极性预测任务的结果。此外,与上述根据PELD中的部分对情绪进行分类的分析不同,极性是情绪分析的另一个方面。由于这些极性没有在VAD空间中直接描述,所以我们只报告了RoBERTa、RoBERTa-P和PET-CLS的结果。此外,我们只将PET-CLS的输出大小从7(情绪)更改为3(极性),并在此任务中保留了情绪转换过程。

在这里插入图片描述

总体而言,我们可以看到极性的预测F-scores高于情感的预测。此外,三种方法预测消极极性都比预测积极极性容易得多。此外,在所有三种方法中,负面情绪的预测比正面情绪的预测要容易得多。这可能是因为尽管情绪的数量相似,但负面情绪(愤怒、悲伤、恐惧和厌恶)的类别比正面情绪(喜悦和惊讶)多。在模型设计下,PET-CLS比RoBERTa和RoBERTa-P都要好,除了中性情绪。这表明,受个性影响的情绪转换也有助于情绪预测。

7 总结和未来工作

在本研究中,我们提出了考虑对话中个体差异的情绪自动选择反应的问题,并提出了一个新的视角,通过个性影响的情绪转换来解决这个问题。此外,我们还构建了一个带有情绪和个性标签的对话脚本数据集PELD,以促进相关研究。我们还在情绪预测实验中验证了我们的个性影响情绪转换模型。

面部表情、声音、手势和环境信息在情感互动中也是至关重要的,但它们并不能在纯粹的基于文本的对话系统中被捕捉到。此外,从PELD的统计数据中可以看出,对话脚本中最常见的情绪仍然是中性的。一个可能的原因是,其他微妙的情感信息没有在文本中捕捉到。因此,我们未来的工作将继续研究在多模态情境下个性对情绪的影响。

  • 12
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值