论文阅读--COSMIC: COmmonSense knowledge for eMotion Identification in Conversations

COSMIC: COmmonSense knowledge for eMotion Identification in Conversations

Deepanway Ghosal, Navonil Majumder, Alexander F. Gelbukh, Rada Mihalcea, Soujanya Poria:COSMIC: COmmonSense knowledge for eMotion Identification in Conversations. EMNLP (Findings) 2020: 2470-2481

abstract

利用常识知识来解决对话中话语级别的情感识别任务.我们提出了COSMIC,一个结合了诸如心理状态,事件,因果关系等不同的常识元素,并以此为基础来学习对话中的对话者之间的互动的新框架.当前的方法经常在上下文传播,情感变换侦测以及区分相近的情感类别中遇到困难。通过学习不同的常识表示COSMIC解决了这些挑战.

1 Introduction

自然的对话是复杂的,因为它们是由几个不同的变量控制的,这些变量会影响对话的流畅性和参与者的情绪。这些变量包括:话题(topic),观点(viewpoint),说话者的个性(personality),论证逻辑(argumentation logic),意图(intent)…此外,个体的话语也受到被参与者在说出时的心理状态、意图和情绪状态的影响。在此对话模型中,随着对话的展开只有话语可以被观测到,而其他变量,比如说话者状态,潜在的意图等无法直接被其他对话参与者观测到.同样,说话者的情感状态无法被直接观测到,但它可以从已经被观测到的话语中推断出来.

对话中参与者的常识知识在推断对话中的潜在变量的任务中起到重要的作用.它们被用于指导对话参与者推理对话的内容,对对话进行规划,做出决定以及其他许多推理任务.它也被用于识别对话中其他细粒度元素,比如避免重复,提问问题,避免做出无关的回应等等,所有的这些控制对话的许多方面比如,流畅性,趣味性,好奇心或同理心等.因此,常识知识对于建模对话的性质和流程以及参与者的情感动态是必要的。在图1中举例说明了这样一种场景,其中常识知识被用来推断对话中话语的情感。

在这里插入图片描述

常识知识可以导致可解释性的对话理解.它会帮助模型理解,推断,并解释事件和情况.在上图的例子中,常识推断被应用于包含两个参与者的对话的话语序列中.A的第一句话表明她厌倦了和B争论.说话的语气也暗示B被A骂(大吼大叫)了,这激起了B本人的愤怒反应.然后B在其变得生气时问A想要让他做什么.这又导致了A的愤怒并导致她生气地回应B.这种关于说话者和听者的反应、效果和意图的常识推断有助于预测参与者的情绪动态。

自然语言通常表示一个人的情绪。理想情况下,ERC需要对单个话语进行上下文建模。该上下文可以归因于前面的话语,并且依赖于话语的时间顺序。基于词库和深度学习的普通的情感识别方法在ERC数据集上不能很好地工作,因为其忽略了对话的特定因素,如上下文线索的存在,说话人的时间转换,或说话人的特定信息。

本文提出了COSMIC,一个用于ERC的常识导向的框架,通在一个巨大的常识知识库上建立,所提出的框架捕获了个性,事件,精神状态,意图之间的一些复杂交互,从而更好地理解情感动态和对话的其他方面。

2 Related Work

会话情绪识别的主要方法是使用基于深度学习的算法在文本或多模态环境下进行上下文建模。

3 Methodology

3.1 Task definition

给定一段对话的文字记录以及每个组成话语的说话者信息,ERC任务的目标是从一组预定义的情绪中识别每个话语的情绪。正式的,给定N个话语组成的输入序列 [ ( u 1 , p 1 ) , ( u 2 , p 2 ) , . . . , ( u N , p N ) ] [(u_1,p_1),(u_2,p_2),...,(u_N,p_N)] [(u1,p1),(u2,p2),...,(uN,pN)],其中由说话者 p i p_i pi说出的每个话语 u i = [ u i , 1 , u i , 2 , . . . u i , T ] u_i=[u_{i,1},u_{i,2},...u_{i,T}] ui=[ui,1,ui,2,...ui,T]包含 T T T个单词 u i , j u_{i,j} ui,j,任务是预测每一个话语 u i u_i ui的情感标签 e i e_i ei.在文献中,解决此问题的主要方法是首先生成独立于上下文的表示,然后执行上下文建模。我们识别了这两个不同的建模阶段,并试图通过提出的模型框架对它们进行改进。

我们的框架包括三个主要阶段(见图2):

  1. 从预训练的transformer语言模型中提取独立于上下文的特征。
  2. 从常识知识图中提取常识特征.
  3. 整合常识知识以设计更好的上下文表示并将其用于最终的情感分类。

在这里插入图片描述

3.2 Context Independent Feature Extraction

3.3 Commonsense Feature Extraction

使用常识转换模型COMET(Bosselut et al., 2019) 来提取常识特征.COMET在几个常识知识图上进行训练以执行自动知识库的构建。给模型提供一个来自知识图的三元组 { s , r , o } \{s,r,o\} {s,r,o},训练从连接的subject phrase s和relation phrase生成object phrase o。COMET是一个使用预训练的自回归语言模型GPT(Radford et al., 2018) 作为基础生成模型的编码-解码模型(encoder-decoder model).

为了进行生成常识性知识的建构任务, COMET 在一个通过文本描述组织起来的有关日常推理的如果-那么的常识知识的集合–ATOMIC上训练.ATOMIC 包含9中不同的如果-那么关系类型来区分主体与主题,原因与后果,自愿与非自愿事件以及行动与精神状态。给定由X参与的事件,这9种关系类型( r r r)推断如下:

  1. X的意图 intent of X
  2. X的需求 need of X,
  3. X的属性 attribute of X
  4. X的影响 effect on X
  5. X想要的 wanted by X
  6. X的反应 reaction of X
  7. 对他人的影响 effect on others
  8. 其他人想要 wanted by others
  9. 其他人的反应 reaction of others

例如,给定一个event或subject phrase( s s s),“Person X gives Person Y a compliment”,COMET对relation phrase ( r r r)的推断为intent of X和reaction of others可能分别是“X wanted to be nice”以及 “Y will feel flattered”

COMET是一个生成模型,如上例所示,它在主语和关系短语上产生一个常识知识的离散序列。然而在本模型中使用连续的常识表示向量.因此,我们利用在ATOMIC知识图上预训练的COMET并去掉了短语生成译码模块(phrase generating decoder module).将话语U作为subject phrase,并将其与relation phrase r r r进行连接.接下来,将连接形成的 { U ⊕ r } \{U\oplus r\} {Ur}送入COMET的编码器并提取最终时间步的激活.我们使用表一中展示的关系:intent of X,effect on X,reaction of X,effect on others and reaction of others(其中X是说话者,others是聆听者).执行这个特征提取操作会得为对话中的每个话语生成五个不同的向量(分别对应于五种不同的关系).这些向量是768维的.

在这里插入图片描述

ATOMIC中各种关系类型的性质允许我们将其自然地扩展到对话框架中。这种关系使对于例如内容(事件、人物、心理状态)和因果关系(原因、结果、静态)等现象的建模成为可能,这些现象都是理解对话上下文的基本要素。这些不同的关系是至关重要的,因为通常在整个谈话过程中,几乎所有的关系都有一个主要的相互作用.例如,关系1到6都与说话人有着内在的联系;关系7到9都与聆听者相关.在更细粒度的层面上,说话者和听者的意图、影响和反应都是理解对话本质的基础。我们推测,在一个统一的框架中采用这些变量将非常有助于创建对话的增强表征。

3.4 Commonsense Conversational Model

设在一次对话中有 M M M个参与者 p 1 . p 2 , . . . p M p_1.p_2,...p_M p1.p2,...pM 以及 N N N个话语 u 1 , u 2 , . . . , u N u_1,u_2,...,u_N u1,u2,...,uN,其中话语 u t u_t ut由当事人 p s ( u t ) p_{s(u_t)} ps(ut)说出,对于每一个 t ∈ { 1 , 2 , ⋯ N } t\in\{1,2,\cdots N\} t{1,2,N},将与上下文无关的 RoBERTa向量表示为 x t x_t xt.与intent of X,effect on X, reaction of X, effect on others 以及 reaction of others相对应的常识向量分别表示为 I S c s ( u t ) , E S c s ( u t ) , R S c s ( u t ) , E L c s ( u t ) , R L c s ( u t ) \mathcal{IS}_{cs}(u_t),\mathcal{ES}_{cs}(u_t),\mathcal{RS}_{cs}(u_t),\mathcal{EL}_{cs}(u_t),\mathcal{RL}_{cs}(u_t) IScs(ut),EScs(ut),RScs(ut),ELcs(ut),RLcs(ut). X X X表示说话者, o t h e r s others others表示聆听者.

由于对话本质上是高度顺序的,并且上下文信息沿顺序流动,上下文状态 c t c_t ct和注意力向量 a t a_t at表达了话语之间的顺序依赖关系。上下文状态和注意力向量总是由对话中的所有参与者所共享.

使用内部状态,外部状态和意图状态来对参与者不同的心理状态,动作和事件进行建模。对于参与者 k ∈ [ 1 , 2 , . . . , M ] k\in[1,2,...,M] k[1,2,...,M]它们被表示为 q k , t , r k , t , i k , t q_{k,t},r_{k,t},i_{k,t} qk,t,rk,t,ik,t.内部状态和外部状态可以统称为说话者状态。然后从这三个状态和前一情绪状态中建模情感状态 e t e_t et.最后,中情绪状态中推断出话语的合适的额情感类别.

在此框架中,上下文和常识建模利用GRU单元进行建模.GRU单元的输入为 y t y_t yt并使用转换 h t = G R U ( h t − 1 , y t ) h_t=GRU(h_{t-1},y_t) ht=GRU(ht1,yt)将隐藏状态 h t − 1 h_{t-1} ht1更新为 h t h_t ht.新的隐藏状态同时充当当前step的的输出.GRU单元含有参数 W W W偏置 b b b以及输出 h t h_t ht.使用5个双向单元GRU: G R U C , G R U Q , G R U R , G R U I , G R U E GRU_C,GRU_Q,GRU_R,GRU_I,GRU_E GRUC,GRUQ,GRUR,GRUI,GRUE来分别建模上下文状态,内部状态,外部状态,意图状态和情感状态.为了便于表示,我们在这里用单向GRU单元来表示不同状态。

  • Context State:上下文状态按照对话流的顺序存储和传播整个会话级信息。此状态使用 G R U C GRU_C GRUC在当话语被每个参与者 p s ( u t ) p_{s(u_t)} ps(ut)说出的每个时间步 t t t之后更新.RoBERTa特征 x t x_t xt及就在话语被说出之前,上一时刻此说话者(指说出当前话语的人,而非上一个时刻说话的人???)的内部状态 q s ( u t ) , t − 1 q_{s(u_t),t-1} qs(ut),t1以及外部状态 r s ( u t ) , t − 1 r_{s(u_t),t-1} rs(ut),t1被连接起来充当 G R U C GRU_C GRUC的输入向量.
    c t = G R U C ( c t − 1 , ( x t ⊕ q s ( u t ) , t − 1 ⊕ r s ( u t ) , t − 1 ) ) (1) c_t=GRU_C(c_{t-1},(x_t\oplus q_{s(u_t),t-1}\oplus r_{s(u_t),t-1}))\tag{1} ct=GRUC(ct1,(xtqs(ut),t1rs(ut),t1))(1)
    同时,还使用soft-attention来从历史上下文 [ c 1 , c 2 , . . . , c t − 1 ] [c_1,c_2,...,c_{t-1}] [c1,c2,...,ct1]中池化注意力向量 a t a_t at.这个注意力向量被用于后面执行内部和外部状态的更新.
    u i = t a n h ( W s c i + b s ) , i ∈ [ 1 , t − 1 ] α i = exp ⁡ ( u i T x i ) ∑ i = 1 t − 1 exp ⁡ ( u i T x i ) a t = ∑ i = 1 t − 1 α i c i (2) \begin{array}{c} u_i=tanh(W_sc_i+b_s),i\in[1,t-1]\\ \alpha_i=\dfrac{\exp(u_i^Tx_i)}{\sum\limits_{i=1}^{t-1}\exp(u_i^Tx_i)}\\ a_t=\sum\limits_{i=1}^{t-1}\alpha_ic_i \end{array}\tag{2} ui=tanh(Wsci+bs),i[1,t1]αi=i=1t1exp(uiTxi)exp(uiTxi)at=i=1t1αici(2)
  • Internal State:对话参与者的内部状态取决于个人的感受以及从其他参与者那里感受到的影响。这种状态可能会被掩盖,参与者可能不会总是通过外部立场或反应明确表达自己的感觉或观点。除了感觉之外,这种状态还可以被认为包括参与者积极尝试不去表达的方面,或者被认为是常识而不需要明确沟通的特征。因此,对自己的影响是表示参与者内部状态的基本元素。使用 G R U Q GRU_Q GRUQ来对参与者的内部状态进行建模.对于时间步 t t t,说话者 p s ( u t ) p_{s(u_t)} ps(ut)的内部状态通过将注意力向量 a t a_t at二号常识向量’effect on speaker’ E S c s ( u t ) \mathcal{ES}_{cs}(u_t) EScs(ut)考虑进来以进行更新:
    q s ( u t ) , t = G R U Q ( q s ( u t ) , t − 1 , ( a t ) ⊕ E S c s ( u t ) ) (3) q_{s(u_t),t}=GRU_Q(q_{s(u_t),t-1},(a_t)\oplus\mathcal{ES}_{cs}(u_t))\tag{3} qs(ut),t=GRUQ(qs(ut),t1,(at)EScs(ut))(3)
    对于除了说话者之外的其他参与者.使用’effect on listeners’ E L c s ( u t ) \mathcal{EL}_{cs}(u_t) ELcs(ut)来进行更新:
    q i , t = G R U Q ( q j , t − 1 , ( a t ⊕ E L c s ( u t ) ) ) ; ∀    j ≠ s ( u t ) (4) q_{i,t}=GRU_Q(q_{j,t-1},(a_t\oplus\mathcal{EL}_{cs}(u_t)));\forall\;j\neq s(u_t)\tag{4} qi,t=GRUQ(qj,t1,(atELcs(ut)));j=s(ut)(4)
  • External State:与内部状态不同,参与者的外部状态都是关于表达、反应和响应的。例如,实际的话语,发音方式,语音和其他声学特征,视觉表达,手势和姿态都可以被宽松地认为属于外部状态的范围。 G R U R GRU_R GRUR通过将注意力向量 a t a_t at,话语向量 x t x_t xt以及常识向量’reaction of speaker’ R S c s ( u t ) \mathcal{RS}_{cs}(u_t) RScs(ut)的连接作为输入,来更新说话者 p s ( u t ) p_{s(u_t)} ps(ut)的外部状态
    r s ( u t ) , t = G R U R ( r s ( u t ) , t − 1 , ( a t ⊕ x t ⊕ R S c s ( u t ) ) ) (5) r_{s(u_t),t}=GRU_R(r_{s(u_t),t-1},(a_t\oplus x_t\oplus\mathcal{RS}_{cs}(u_t)))\tag{5} rs(ut),t=GRUR(rs(ut),t1,(atxtRScs(ut)))(5)
    对于聆听者,使用’reaction of listeners’ R L c s ( u t ) \mathcal{RL}_{cs}(u_t) RLcs(ut)来进行更新
    r j , t = G R U R ( r j , t − 1 , ( a t ⊕ x t ⊕ R L c s ( u t ) ) ) ; ∀ j ≠ s ( u t ) (6) r_{j,t}=GRU_R(r_{j,t-1},(a_t\oplus x_t\oplus\mathcal{RL}_{cs}(u_t)));\forall j\neq s(u_t)\tag{6} rj,t=GRUR(rj,t1,(atxtRLcs(ut)));j=s(ut)(6)
  • Intent State:意图是一种精神状态,代表着执行一组特定行动的承诺。讲话者的意图在决定谈话的情感动态方面起着重要的作用。在时间步 t t t说话者的意图从 i s ( u t ) , t − 1 i_{s(u_t),t-1} is(ut),t1变为 i s ( u t ) , t i_{s(u_t),t} is(ut),t.这种变化是由时间步 t t t中的常识向量’intent of speaker’ I S c s ( u t ) \mathcal{IS}_{cs}(u_t) IScs(ut)和内部说话者的状态 q s ( u t ) , t q_{s(u_t),t} qs(ut),t引起的.通过 G R U I GRU_I GRUI来捕获意图状态.
    i s ( u t ) , t = G R U I ( i s ( u t ) , t − 1 , ( I S c s ( u t ) ⊕ q s ( u t ) , t ) ) (7) i_{s(u_t),t}=GRU_I(i_{s(u_t),t-1},(\mathcal{IS}_{cs}(u_t)\oplus q_{s(u_t),t}))\tag{7} is(ut),t=GRUI(is(ut),t1,(IScs(ut)qs(ut),t))(7)
    聆听者(s)的意图保持不变.这是因为沉默的参与者的意图不应该改变。只有当特定的参与者再次发言时,变化才会发生。
    i j , t = i j , t − 1 ; ∀ j ≠ s ( u t ) (8) i_{j,t}=i_{j,t-1};\forall j\neq s(u_t)\tag{8} ij,t=ij,t1;j=s(ut)(8)
  • Emotion State:情感状态决定了说话者的情绪以及话语的情感类别.假设情感状态取决于话语以及考虑了内部,外部,意图状态的说话者的复合状态.当前的情感状态同样依赖于说话者早先的情感状态。 G R U E GRU_E GRUE通过结合所有因素来捕获情感状态:
    e t = G R U E ( e t − 1 , ( x t ⊕ q s ( u t ) , t ⊕ r s ( u t ) , t ⊕ i s ( u t ) , t ) ) (9) e_t=GRU_E(e_{t-1},(x_t\oplus q_{s(u_t),t}\oplus r_{s(u_t),t}\oplus i_{s(u_t),t}))\tag{9} et=GRUE(et1,(xtqs(ut),trs(ut),tis(ut),t))(9)
  • Emotion Classification:最后对话中的话语通过一个全连接网络从 e t e_t et中进行分类
    P t = s o f t m a x ( W s m a x e t + b s m a x ) ; ∀ t ∈ [ 1 , N ] y ^ t = arg max ⁡ k ( P t [ k ] ) (10) \begin{array}{l} P_t=softmax(W_{smax}e_t+b_{smax});\forall t\in[1,N]\\ \hat{y}_t=\argmax\limits_k(\mathcal{P}_t[k]) \end{array}\tag{10} Pt=softmax(Wsmaxet+bsmax);t[1,N]y^t=kargmax(Pt[k])(10)

Experimental Setup

在这里插入图片描述

4.1 Datasets

在四个不同的对话情感识别数据集:IEMO-CAP,MELD,DailyDialog and EmoryNLP.其中IEMOCAP和DailyDialog 是二元对话,MELD和EmoryNLP是多方对话.对各个数据集上的文本信息进行实验.

4.2 Training Setup

对上下文无关的特征提取,RoBERTa 模型在.话语的结合和它们的情感标签中进行微调.使用学习率为 1 0 − 5 10^{-5} 105的Adam优化器,batch的大小为32个话语来训练RoBERTa 模型.在 MELD和EmoryNLP数据集中,在第一层和倒数第二层之间使用残差连接,这会在情感识别模型的训练中带来更大的稳定性。情感识别模型使用学习率为 1 0 − 4 10^{-4} 104的Adam优化器进行训练.

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值