数据矿工学习-情感分析框架DeepEmo论文-个人中文翻译

DeepEmo: Learning and Enriching Pattern-Based Emotion Representations

作者:

Elvis Saravia /National Tsing Hua University Hsinchu, Taiwan /ellfae@gmail.com

Hsien-Chi Toby Liu /National Tsing Hua University Hsinchu, Taiwan /tobbymailbox@gmail.com

Yi-Shin Chen /National Tsing Hua University Hsinchu, Taiwan /yishin@gmail.com


概述 Abstract

我们提出了一个基于图论的算法来提取丰富的情感承载模式,从语料库中促进对线上情绪表达的深入分析。然后通过词语嵌入来丰富模式,并通过几种情绪识别任务进行评估。 此外,我们对情绪导向模式进行分析以证明其适用性并探索其性质。我们的实验结果表明,这次提出的技术胜过了大多数最新的情感识别技术。


1引言 Introduction

情绪可以被定义为有意识的情感态度,这构成了一种感受的展示。情绪分类任务包括情感词汇和短语的表示学习或手动特征提取。虽然关于什么构成情感的问题一直存在争议,但情感识别模型及其应用可以提供的社会经济的好处无疑是存在的。情绪是影响人类社会行为的关键因素,如动机,兴趣,讽刺和心理健康。最近,情感检测能力已经嵌入到感知意识,AI对话代理,如Woebot提出的对话系统中。我们工作的动机源于为更好地建模和探索不同形式的线上情绪表达的需求,特别是隐式表达。所提出的情绪表征允许情绪识别系统考虑停用词等语言组成部分,这些组成部分通常在情绪分析中被忽略,但却是我们如何表达我们的情绪和观点的一个重要组成部分。

来自文本的情感识别是具有挑战性的,因为情绪表达可以是高度隐含的并且随着时间的推移而变化。当依靠由人工制作的语言规则产生的资源(例如,情感词典)时,这提出了挑战。例如,当应用传统的特征提取器如词汇包和n-gram包时,错误发音的单词出现在一起将不会被识别为相同。在线社交网络中的另一个常见趋势是使用不同形式的表达方式,如俚语,代码字和表情符号来表达感受和意见。为了解决这个问题,我们设计了一个基于图论的算法,使提取情绪表示的过程自动化。

作一个概述,我们首先通过嘈杂的标签收集一个情感语料库,然后通过远程监督进行修改。然后,通过基于图论的机制提取情感特征,这些机制进一步丰富了词语嵌入,以保持模式之间的语义含义。为了评估模式的质量,使用各种在线分类器和深度学习模型来训练情感检测模型。本文的主要贡献如下:1)基于图论的自动情感特征提取机制,2)一组情感丰富的特征表示,用于组合各种情感识别任务和其他相关目标任务, 3)对各种传统学习模型和深度学习模型进行综合性能分析,因为它适用于从文本中进行情感识别; 4)情感丰富的词典,作为开源提供,允许对给定的情绪相关语料库进行更深入的分析。

 

2相关工作 Related Work

2.1特征表示概述 Overview of Feature Representations

我们将各种特征提取器与提出的技术在两个维度上进行比较:1)覆盖率 - 特征应该能够隐藏重要的隐性和显性情绪信息; 2)适应性 - 这些特征可以应用于其他类型的情绪语料库,起源于不同的领域。最近的情感识别系统采用表征学习进行特征检测。一般来说,词语嵌入(如word2vec)作为输入和深度学习模型(如卷积神经网络(CNN))的组合在句子分类中表现良好。由于这些类型的模型的性质和他们学习的特征类型,它们往往具有较高的覆盖率,较高的适应性,需要较少的监督(即自动学习特征),并且能在一定程度上捕捉上下文。然而,这种类型的模型在可解释性和高性能之间存在一定的权衡。我们基于图论的特征提取机制更侧重于语言组件之间的底层交互。因此,模式会自动显示隐式和明确的情绪表达。

2.2情感语料库和模型 Overview of Feature Representations

目前有几个开放的情感数据集,如SemEval-2007情感文本任务(Strappa-rava和Mihalcea,2007)和奥运会数据集(Sintsova等,2013)。然而,这些情绪数据集要么由于缺乏细粒度的情感标签或数量而受到限制。我们引导了一组用于获取大量情感推文的嘈杂标签,然后通过远程监督执行注释。在情感识别研究中,普遍采用Plutchik的情感轮(Plutchik,2001)或Ekman的六种基本情绪(Ekman,1992)来定义情感类别。表情符号和表情符号也被证明可用于定义情绪类别。类似于(Moham-mad和Kiritchenko,2015; Liew和Turtle,2016; Abdul-Mageed和Ungar,2017),我们依靠标签来定义我们的情绪类别。

2.3情绪词典 Emotion Lexica

情绪分类器使人们能够理解精神健康患者的心境模式。这些研究中的一些依赖于预先定义的词典,例如LIWC(Pennebaker et al。,2007)2,WordNet Affect(Strapparava et al。,2004)和EmoLex(Mohammad and Turney,2013),都是从基于文本的语料库中提取情感线索。最近的一项研究表明,社交网络中用户之间的情感态度和感知与人口特征之间存在相关性。这项研究依赖于一种情绪检测系统,该系统使用词汇特征(例如表情符号和主题标签)建立。其他用户信息(例如年龄和性别)则是从外部获得的,这限制了自己收集的数据量。对他们工作的改进是使用用户推文中的内容自动确定用户属性,如年龄和性别。其他情绪分类器使用手工制作的语言特征来提高情感分类性能。这些特征对于情感分类很有用,但存在有限的覆盖范围。我们的情绪词典是强调覆盖面(即隐含和明确的情感表达)。

 

3方法论 Methodology

3.1基于图论的表示 Graph-Based Representations

在本节中,我们介绍一种基于图论的特征提取算法,它可以自动提取一组情感丰富的句法模式。为了方便标识,我们用斜体(例如u)表示标量,粗体小写(例如v)表示向量和粗体大写(例如X)表示矩阵。模式P = {p1, p2, ..., pn} 将分配到一个权重,也称为模式分数,用于确定模式p对情绪e的重要性。在情感分类的背景下,模式及其权重扮演着特征的角色。基于图的特征提取算法总结在以下步骤中:

步骤1(标准化):首先,使用Twitter API 获取两个单独的文档集合 - 主观推文S(通过主题标签获得的嘈杂标签)和客观推文O(从新闻账户中获得)。这两个数据集都由空格进行标记,然后通过分别应用小写和使用<usermention><url>占位符替换用户提及和URL进一步进行预处理。 哈希标签用于获得文本中的基本事实,因此为了避免任何偏见,我们用<hashtag>替换它们。

步骤2(图构造):给定标准化后的目标推文O和主观推文S,构造两个图:分别为客观图Go(Vo; Ao)和主观图Gs(Vs; As)。顶点V是一组表示从文集中提取的词条的节点。表示为A的边表示使用窗口方法从一段文本中提取的单词的关系。这个考虑是重要的,因为它保留了文本数据的韵律和潜在的句法结构。例如,“<usermention>last night’s concert was just awesome !!!!!  <hashtag>”由此产生以下的一组弧:“ <usermention>last”, “last → night”, ... , “!!!!! → <hashtag>”。

第3步(图聚合):这一步的目标是获得一组与主观性或情绪表达更相关的弧。作为假设,通过用Go调整图形Gs,可以获得新的图形Ge,也被称为情感图形。 Ge保留与情绪相关的词条,分两步实现:

(1)对于弧ai∈A,可以如公式1所示计算其归一化权重。


freq(ai)是弧ai的频率

(2)随后,根据公式2中所示的一对调整来分配弧ai∈Ge的新权重。


归因于图Ge的结果权重被调整,目标集合Go中最频繁出现的环弧在Ge中被削弱。 因此,具有较高权重的Ge中的弧可以表示与主观内容更相关的词条。 此外,修剪弧ai∈Ae,基于阈值φw

步骤4(词条分类):在给定邻接矩阵M的情况下,条目Mi,j被计算为:

然后,计算Ve中所有顶点的特征向量中心性和聚类系数,将其用于将词条分为两类:

连接词和主题词。

(1)连接词:为了测量图G中所有节点的影响,我们使用特征向量中心性,其计算公式如下:

其中λ表示比例因子,ci是节点i的中心性分数。

给定作为相应的特征值,方程4可以以向量表示形式重新表示为Mc = = λc,其中c是M的特征向量。给定选定的特征向量c和节点i的特征向量中心性分数,记为ci, 通过保留具有ci> φeig的所有词条来获得连接词的最终列表(以下称为CW)。CW表示非常频繁且包含高中心性的词的集合(例如,“或”,“和” 和“我的”)。

(2)主题词:相反,主题词(subject words)或话题词(topical words)通常聚集在一起,即许多主题词通过相同的连接词相互连接。 因此,将一个系数分配给Ge中的所有节点,并计算如下:


其中cli表示节点i的平均聚类系数,其捕获节点i的邻居之间的互连连接量。类似于连接词,主题词(以下称为SW)通过重新获得所有具有cli> φc1的词条来获得。

主题词是(例如,“从不”和“生活”)。

步骤5(模式候选者):给定一组词条,SWCW,我们采用bootstrap方法来构造候选模式,这些候选模式可以表达主观意义而且不会丢失句法结构。因此,以下是用于定义候选模式的一些规则:<sw; sw; cw><sw; cw; sw><cw; sw; sw><cw; cw; sw>,其中swcw分别表示从集合SWCW中获得的任意词条。重要的是要澄清,在这项工作中使用了二号和三号的序列,因为这种设置对我们来说是最有效的。我们可能有时将这些候选模式称为模板。我们的工作的不同之处在于,我们不在模式提取过程中强加语法启发式或规则,因此,我们的模式倾向于自然而然地具有更高的覆盖率并能够捕捉隐含的情绪内容。

步骤6(基本模式提取):朴素模式提取过程包括将句法模板以穷举的方式应用于训练语料库。另外,每个模式中的主题词sw被替换为一个占位符<*>。这个操作允许在我们的训练语料库中不存在的未知主语词,且对外部情绪模型建模时才被考虑。我们对与主观性高度相关的模式感兴趣,因此经常出现在阈值以上的模式被保留,其余模式被滤除。在表1中,我们提供了与相应模板一起提取的基本模式类型的实例。接下来,我们讨论用词嵌入方法来丰富句法模式的过程。这种丰富过程有助于保持模式之间的语义并提高特征相关性。

3.2富集模式 Enriched Patterns

加权词嵌入:首先,我们获取来自(Deriu等,2017)和基于Twitter预先训练的的词嵌入,并通过远程监督通过情感语料库对其进行重新评估,我们通过反向传播训练了具有10个epoch(1个隐藏层)的完全连接的深度神经网络。我们将情感字嵌入为W ∈ R d×n ,其中d = 52。注意,术语频率逆文档频率(tf-idf)用于减少词汇的词汇量(从140K到20K字)。

词汇集群:然后,我们通过词嵌入信息使用聚类算法来生成与语义相关的词汇集群。为了确定集群的质量,我们与WordNet-Affect synsets进行了比较,并进行了同质性和完整性测试。我们使用Ward的方法(Ward Jr,1963)作为链接年龄标准,余弦距离作为距离度量。最后,我们获得了k = 1500个簇。我们使用scikit-learn实现来执行单词聚类(http:// scikit-learn.org)。

富集模式构建:词组的目的是用它们来指导富集模式的过程。换句话说,模式将保持一些语义关系,这对分类问题有用。请注意,除了单词嵌入式集成以外,此过程与简单模式提取类似。这需要一个引导过程,这需要一个引导过程,其中情感语料库被处理,并且以穷举的方式搜索候选模式。。任何满足模板的情感语料库中的任何单词序列都会被保留,其余的都被过滤掉。另外,模板的sw组件必须是在上面定义的单词群中找到的单词。此外,出现<10的模式将被滤出,产生总共187,647个图案。在第6节中,我们更深入地分析模式并提供示例。

3.3情感模式加权 Emotion Pattern Weighing

上一步提取的模式仍未映射到任何特定的情感类别。在训练分类模型之前,需要使用模式称量机制。 类似于其他流行的称重机制,如tf-idf(),权重决定了模式对每个情感的重要性。所提出的模式称重方案是tf-idf的一种修改,被称为模式频率 - 逆情感频率(pf- ief),并分两步定义。 首先,我们计算pf为:

其中freq(p,e)表示p in e的频率,并且pfp,e表示与情绪e相关的文本集合中的模式p的对数缩放频率,然后我们计算ie f为:


反情感频率iefp是所有情绪类别中模式p的相关性的量度。

最后,我们获得一个模式评分为:


其中psp, e是反映模式p对情感类别e的重要性的最终分数。


4模型 Models

4.1 DeepEmo

我们所提出的框架,被称为DeepEmo,将多层CNN体系结构与所提出的基于图论的特征的矩阵形式相结合。 输入X ∈ R n×m表示嵌入矩阵,其中条目X i,j表示情感j中富集模式i的模式分数。我们使用零填充策略来调整嵌入(Kim,2014)

输入被送入2个1d卷积层,滤波器的大小为3和16.这个过程的输出通过一个非线性激活函数(即ReLU(Nair and Hinton,2010))并产生一个特征映射矩阵。 然后将大小为3的1-max汇集层应用于每个特征地图map。 汇集的结果按顺序馈入尺寸为512和128的两个隐藏层,每个隐层都使用0:8的dropout进行正则化。 我们选择了128个批次,并使用Adam优化器对7个时期进行了训练。 softmax函数用于生成最终分类。 我们使用Keras来实现CNN架构。

4.2矢量模型 Vector Model

作为基准,我们提出了一个朴素矢量模型(EVM),它演示了3.1节中提出的基本模式的基本可用性和适用性。 模式权重是使用3.3节提出的模式称量机制获得的。 形式上,给定n个模式和m个情绪,我们可以将整个情感模型表示为矩阵EM ∈ R n×m。 条目EMi,j表示情感j中的基本模式i的等级,这是基于模式评分psi,j。 请注意,具有较高ps值的模式具有较低的排名值,因为它们与该特定情感更相关。 假设我们想要获得其描述的情感的社交推文tw,我们首先计算其频率向量f ∈ R n,其中入口fi表示输入社交帖子d中的模式i的频率。 我们计算情感分数为:

其中es ∈ R m和条目esj对应于推文tw的情感j的最终情感分数。 这些值中的最小值的索引被选择为针对tw检测到的最终情绪。

4.3模型比较 Comparison Models
4.3.1传统模型 Traditional modelss

我们将DeepEmo与常用于句子分类的各种传统方法(例如,字袋(BoW),字符级(char),n-gram,TF-IDF)进行比较。用于训练这些模型的分类器是随机梯度下降 )由scikit-learn提供的分类器。


4.3.2深度学习模型 Deep Learning models
深度学习架构支持从文本信息中自动学习功能。 我们观察到,在用于情感分类的深度学习模型的学习器中,它们因输入的选择而异:预先训练的词/字符嵌入和端到端学习的词/字符表示。 我们的工作不同之处在于我们使用丰富的基于图的表示作为输入,因此我们认为与这些方法进行比较也很重要。 我们与卷积神经网络(CNN),递归神经网络(RNN),双向门控循环神经网络(GRNN)和词嵌入(word2vec)进行比较。


5实验 Experiments

5.1数据 Data

我们遵循(Mohammad,2012; Wang等人,2012; Abdul-Mageed和Ungar,2017)并构建一组标签(基于Plutchik的情感轮(Plutchik,2001)),以从Twitter API收集英文推文。具体而言,我们使用Plutchik的八种基本情绪:愤怒,预感,厌恶,恐惧,喜悦,悲伤,惊喜和信任。主题标签用作嘈杂的标签,允许通过远程监督对数据进行注释。总共定义了339个主题标签。为确保推文质量,我们遵循(Abdul-Mageed和Ungar,2017年)提出的预处理步骤,并将推文的最后位置中的标签视为基本事实。我们将数据分成训练(90%)和测试(10%)。表3提供了数据的最终分布以及每种情绪的标签示例列表。在下面的章节中,我们将评估富集模式对几种情感识别任务的有效性。我们使用F1分数作为评估指标,由于情绪数据集的不平衡性质,这种评估指标通常用于情绪识别研究。

5.2实验结果 Experimental Results

传统特征提取器:从传统特征提取器获得的结果在表2中给出。如表所示,对于字符级和字级特征提取器,TF-IDF模型通常比基于计数的基本特征产生更好的结果。这些发现与(Zhang等人,2015)的工作一致,其中传统方法如n-gram TF-IDF在各种句子分类任务中被发现与神经网络相当。

模式方法的结果:使用基本的基于图论的模式的EVM和CNN-patt的结果是大多数常规方法中最差的。使用富集模式的DeepEmo获得比CNN-patt和EVM以及所有其他传统方法更好的结果(F1分数为67%)。事实上,我们的方法在所有情况下都能获得最好的F1分数。我们还可以观察到,与基本模式模型(CNN-patt)相比,使用富集模式(DeepEmo)时,性能有显着提升(+ 15%)。总的来说,我们可以观察到丰富的基于图的特征对于训练情感识别模型是可行的。

与最新技术的比较:我们还与已发表的文献比较了结果,这些文献利用Ekman的六种基本情绪使用情感识别系统。为了公平比较,我们将我们的数据集从八种情绪再现为六种情绪:愤怒,厌恶,恐惧,喜悦,悲伤和表现。如表5所示,我们的情绪识别系统取得了比(Volkova和Bachrach,2016)例外的大多数方法更好的结果(F1得分为0.72%)。他们的情绪识别系统比我们的表现更好(F1分数为78%),因为他们使用明确的语言特征,例如表情符号和主题标签。我们的功能更容易受到噪音的影响,因为我们的目标是获得更高的覆盖范围,以捕捉更多隐含的情绪表达。如果我们打算使用情感词典对情感数据集进行深度分析,这个考虑就很重要。另外,它们的功能是特定于域的,这意味着一些重要的功能(例如表情图标和主题标签)可能不适用于其他情感数据集。传统方法是小规模数据的识别任务的强大候选人,到达几百万规模时,CNN模型可能才会做的更好。我们计划继续扩大我们的数据集并改进模式权重,这是改进结果的可行方法。


深度学习的结果:我们提供了与各种深度学习模型的比较,并评估了Ekman的六种基本情绪。这些建筑是从已发布的资源中采用的。我们将富集模式作为嵌入到双向GRNN中,并在深度学习模型中达到最佳结果(准确率为0.65%),如表4所示。结果表明,模式也可以应用于除CNN之外的其他深度学习模式,这为进一步的探索和实验留下了机会。

情感数据集:我们使用富集模式对其他现有的情感数据集进行了实验。与我们所知的(Felbo等,2017)相比,我们在SemEval-2007情感文本任务上获得了更好的结果(F1分数为0.48%) ,相对于这个数据集持有最新的结果(0.37%)。我们直接使用他们的基准数据集并修改我们的模型以支持可用的情感标签。在SemEval-2017任务4中,我们获得了53%的F1分数。这些结果提供了更多的证据表明我们富集模式适用于其他情绪相关的任务和数据集。


6富集模式分析 Analysis of Enriched Patterns

在本节中,我们将探索从基于性别的数据集中提取的富集模式。 我们从Twitter收集用户提要,并根据他们的内容通过Sap等的性别预测器将用户分类为男性和女性类。 这产生了一个性别数据集,我们也自己手动验证。我们随机抽样2000男性和2000女性,然后从每个用户中随机抽取100个推文。 这总共产生了40万条推文,我们通过用<=5个词条件过滤掉推文进一步减少了推文数量。 推文的最终数量是294,792,我们使用DeepEmo进行分类。

我们使用富集模式对性别数据应用模式频率分析。丢弃男性和女性共享的模式,并分析每个性别数据集的1000个最常出现的模式。 在表7中提供了由女性和男性表达的由<cw; sw>和<sw; cw>模板捕获的最常见情绪模式。{}中的单词代表模式富集过程捕获的主题词。 我们可以观察到,主题词代表了诸如“鄙视”,“大喊”和“最孤单”等情感丰富的词语。 另一方面,连接词提供了上下文,这有助于更好地理解富集模式。



我们目前正在调查社交媒体上是否存在针对性别的情感模式或表情。然而,从这里提出的原始分析得出结论还为时过早。我们仍然可以观察到,提供情境有助于讲述情绪表达背后的故事。 另一个有趣的研究方向是直接将模式用于性别预测。分析的目标是探索富集模式,并展示它们如何用于对情绪语料库进行更深入的分析。

模式覆盖率:我们计算了几个情感数据集上富集模式的覆盖时间。如表6所示,性别数据中89.4%的推文至少包含一种富集模式。 我们的模式还显示了来自不同领域的数据集的高覆盖率,如SST-2(76%),SST-5(71%)(Socher等,2013)和PsychExp(95%)(Wallbott和Scherer,1988)。我们观察到数据集大小不影响覆盖率结果。根据(Wallbott和Scherer,1988)描述的情绪体验获得了高覆盖率(95%),这些情绪体验来源于模式构建的不同领域。 这表明我们富集模式适用于其他领域,这为进一步的探索和实验提供了机会。


7讨论 Discussion

Abdul-Mageed和Ungar(2017)的研究表明,提高数据质量是改善情绪分类结果(达到83%的F1分数)的重要一步。我们观察到他们报告了一个更大的数据集(790,059)和更平衡的数据收集每个情感。相反,我们的数据集更不平衡,但即使平衡结果没有显着改善(平均F1分数为68%)。在撰写本文时,作者仍在努力公开提供他们的数据集,因此我们无法直接比较他们的方法。 作为未来的工作,我们希望不断完善我们的主题标签并改善情绪问题。 所有基准数据集,词典,预先训练的模型以及运行模型的代码都将很快推出。


8结论 Conclusion

我们提出了一个丰富的基于图论的特征提取机制来提取丰富情感的表示。这些模式充满了词语嵌入,并用于训练多种有效的情感识别模型。我们的模式捕捉隐含的情绪表达,这些表情能够证明情绪识别结果,并有助于解释性。我们展示了拟建的情感词典对性别数据集的基本应用。我们希望改进模式称量机制,以提高情绪识别任务的性能,并尽量减少模式覆盖率和追求性能之间的平衡。


DeepEmo论文地址:

DeepEmo: Learning and Enriching Pattern-Based Emotion Representations 


才学疏浅,欢迎评论指导







  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值