情感分析与观点挖掘第五章笔记(上)/基于方面的情感分析/SentimentAnalysis-and-OpinionMining by Bing Liu

Chapter 5 基于方面的情感分析_Aspect-based Sentiment Analysis


随着各章的自然发展,本章应侧重于 短语单词级别的情感分类,因为上两章是关于文档和句子级别的分类。但是,我们将该主题留给下一章。在本章中,我们将重点放在 基于方面的情感分析上,因为是时候解决第2章中定义的全部问题了,许多短语和单词的情感都取决于方面的上下文。

正如我们在前两章中讨论的那样,在文档级别或句子级别对意见文本进行分类通常不足以用于应用,因为它们无法识别观点目标或给目标分配情感。即使我们假设每个文档都评估一个实体,关于该实体的正面观点文档也不意味着作者对实体的各个方面都持有正面意见。同样,负面观点文档并不意味着作者对所有方面都持负面态度。为了进行更完整的分析,我们需要发现各个方面,并确定每个方面的情绪是正面还是负面

要提取这些细节,我们进入方面级别,这意味着我们需要第2章的完整模型,即基于方面的情感分析(或观点挖掘),在(Hu和Liu,2004年)中也称为基于特征的观点挖掘。注意,如第2章所述,观点目标被分解为实体及其各个方面。 GENERAL方面在结果中表示实体本身。因此,基于方面的情感分析涵盖了实体和方面。它也引入了一系列问题,这些问题需要更深的NLP能力并产生更丰富的结果。

回忆一下,在方面级别,目标是发现给定文档d中的每个五元组(e_i,a_ij,s_ijkl,h_k,t_l)(实体,方面,情感,持有者,时间)。为了实现这个目标,必须执行六个任务。本章主要关注下面列出的两个核心任务。研究人员对它们进行了广泛的研究。其他任务也将涉及,但相对简短。

  1. 方面提取:此任务提取被评价的方面。例如,在句子“The voice quality of this phone is amazing”中,方面是“this phone”所代表的实体的“voice quality”。请注意,“this phone”此处未表示GENERAL方面,因为评价不是针对整个电话,而只关其语音质量。但是,句子“I love this phone”对电话进行了整体评估,即以“this phone”代表的实体的GENERAL方面进行评估。当我们谈论一个方面时,请记住,我们必须知道它属于哪个实体。在下面的讨论中,我们常常为了表述简单而省略实体。

  2. 方面情感分类:该任务确定不同方面的观点是正面、负面还是中立的。在上面的第一个示例中,对“语音质量”方面的看法是肯定的。第二,对GENERAL方面的看法也很积极。

请注意,在应用中可能会给出观点目标,因为用户仅对这些特定目标(例如BMW和Ford品牌)感兴趣。在这种情况下,我们不需要执行实体或方面提取,而只需确定目标上的情感即可。

5.1 方面情感分类

我们首先研究第二个任务,即确定句子中每个方面表达的情感取向。主要有两种方法,即监督学习方法和基于词典的方法。

对于监督学习方法,适用于第4章中讨论的用于句子级和从句级情感分类的基于学习的方法。在(Wei和Gulla,2010年)中,还提出了一个层次分类模型。但是,关键问题是如何确定每个情感表达的范围,即它是否涵盖了句子中感兴趣的aspect。当前的主要方法是使用句法分析来确定依赖性和其他相关信息。例如,在(Jiang et al。,2011)中,依赖分析用于生成一组方面依赖的特征以进行分类。 (Boiy和Moens,2009)中也使用了一种相关方法,该方法根据特征相对于解析树中目标方面的位置对每个特征进行加权。对于比较性句子,可以使用“ than”或其他相关词来分割句子(Ding,Liu和Zhang,2009; Ganapathibhotla和Liu,2008)。

监督学习取决于训练数据。正如我们在3.4节中讨论的那样,从一个域中的标记数据训练出来的模型或分类器在另一个域中的表现通常很差。尽管研究人员已经研究了领域适应(或迁移学习)(第3.4节),但该技术还很不成熟,并且当前的方法也主要用于文档级别的情感分类,因为文档篇幅较长并且包含的​​分类特征比个别句子或从句。因此,监督学习很难扩展到大量的应用领域。

基于词典的方法可以避免某些问题(Ding,Liu和Yu,2008年; Hu和Liu,2004年),并且已被证明在许多领域中表现良好。此类方法通常不受监督。他们使用情感词典(包含情感词,短语和成语的列表),复合表达式观点规则(第5.2节)和(可能)句子分析树来确定句子中每个方面的情感取向。他们还考虑了shifters(情绪转移器)、but-clauses(但是-从句)(见下文)和许多其他可能影响情感的结构。当然,基于词典的方法也有其自身的缺点,我们将在后面讨论。该方法在处理比较句中的扩展将在第8.2节中讨论。下面,我们介绍一种简单的基于词典的方法,以介绍这种方法。该方法来自(Ding,Liu和Yu,2008),它有四个步骤。在这里,我们假设实体和方面是已知的。它们的提取将在5.3节中讨论。

  1. 标记情感词和短语:对于包含一个或多个方面的每个句子,此步骤标记句子中的所有情感词和短语。每个积极的词被指定为+1的情感得分,每个消极的词被指定为-1的情感得分。例如,我们有这样一句话:“这部手机的语音质量不好,但电池寿命很长。”在此步骤之后,该句子变为“此手机的语音质量不好[+1],但电池寿命很长”,因为“好”是一个积极的情感词(句子中的各个方面以斜体显示)。请注意,此处的“长”不是情感词,因为它通常并不表示积极的情绪或消极的情绪,但是我们可以在此上下文中很快推断出它的情感。实际上,“长”可以看作是上下文相关的情感词,我们将在第6章中进行讨论。在下一节中,我们将看到一些其他可以表达或暗示正面或负面情绪的表示。

  2. 应用情感转移器:Sentiment shifters(在Polanyi和Zaenen,2004中也称为valence
    shifters )是可以改变情感取向的单词和短语。这种移位器有几种类型。最常见的类型是否定词,例如“not不,never从不,none没有,nobody没有人,nowhere无处,neither也不,cannot不能”。由于否定词“ not”,此步骤将我们的句子变成“此电话的语音质量不好[-1],但电池寿命很长”。在下一节中,我们将讨论其他几种类型的情感转移器。请注意,并非情感转移器的每一次出现都会改变情感取向,例如,“不仅……而且”。此类情况需要谨慎处理。也就是说,这种特殊用法和模式需要事先确定。

  3. 处理但句:表示转折的单词或短语需要特殊处理,因为它们也经常改变情感指向。英语中最常用的转折词是“ but”。通过应用以下规则来处理包含转折词或短语的句子:如果无法确定一侧的意见,则转折词之前(如但是)和转折后的情感取向彼此相反。规则中的“如果”是因为转折词和短语并不总是表示观点改变,例如,“ Car-x很好,但Car-y更好。”在此步骤之后,由于“但”,上述句子变为“此手机的语音质量不好[-1],但电池寿命很长[+1]”(在但从句的结尾添加了[+1])。注意这里,我们可以推断出“长”对“电池寿命”是正的。除but之外,诸如“with the exception of”,“except that”,“except for”以外的短语也具有转折的含义,并且以相同的方式处理。与否定的情况一样,并非每个都意味着相反,例如,“not only … but also”。此类包含“ but”的非转折语句也需要事先识别。

  4. 汇总观点:这个步骤将一个观点聚合函数应用到最后的情绪得分上,以确定句子中各个方面的情感的最终取向。令句子为s,它包含一组方面{a1,…,am}和一组情感词或短语{sw1,…,swn},其情感分数是从步骤1-3中获得的。句子s中每个方面ai的情感取向由以下聚合函数确定:
    情感分数聚合函数

    其中swj是s中的情感词/短语,dist(swj,ai)是方面ai与情感词swj之间的距离。swj.so是情感词swj的情感得分。乘法逆用于对远离方面ai的情感词赋予较低的权重。如果最终分数是正的,则对s中方面ai的看法是肯定的。如果最终分数为负,则该方面的情感为负。否则它是中立的。

这个简单的算法在很多情况下都能表现出色。它能够毫无问题地处理“Apple is doing very well in this bad economy”这样的句子。请注意,还有许多其他意见汇总方法。例如,(Hu and Liu, 2004)简单地将句子或句子片段中所有情感词的情感分数相加。 Kim和Hovy(2004)使用单词的情感分数相乘。其他研究人员也采用了类似的方法(Wan,2008; Zhu等,2009)。

为了使这种方法更加有效,我们可以确定每个单独的情感词的范围,而不是像上面那样使用词距。在这种情况下,需要像上面讨论的监督方法一样进行解析以找到依赖关系。我们还可以自动发现上下文相关单词(例如上方“电池寿命长”中“ 长”)的情感取向。更多细节将在第6章中给出。实际上,上述简单方法可以在多个方向上得到增强。例如,Blair-Goldensohn等(2008)将基于词典的方法与监督学习相结合。Kessler and Nicolov(2009)尝试了四种不同的策略来确定每个方面/目标的情感(包括排名方法)。他们还显示了一些有趣的统计数据,说明了为什么基于大量手动注释数据很难将情感词链接到目标。

除了方面情感分类研究以外,研究人员还研究了方面情感评级预测问题,该问题主要是在主题建模的背景下与方面提取一起完成的,我们将在第5.3.4节中讨论。

如上所述,除了情感词和短语之外,还有许多其他类型的表达可以传达或暗示情感。其中大多数也很难处理。下面,我们列出其中一些,这被称为 basic rules of opinions(基本观点规则)(Liu, 2010)。

5.2 观点和构成语义学的基本规则

观点规则表达了一种暗示积极或消极情绪的概念。它可以很简单,例如带有可能需要常识或领域知识来确定其方向的隐含情绪或复合表达的单个情绪词。本节介绍其中一些规则。表示这些规则的一种方法是使用构成语义的概念,该概念指出复合表达的含义是其构成成分的含义以及将它们组合在一起的句法规则的函数。下面,我们首先在概念级别上描述规则,而不考虑它们在实际句子中的表达方式,因为这些规则中的许多可以以多种方式表达,并且还可取决于领域和上下文。之后,我们进入表达层面,在情感分析的背景下讨论当前有关构成语义学的研究,该研究旨在结合多个输入构成表达,以得出复合表达的整体情感取向。

使用类似于BNF形式的形式表示规则。规则来自(Liu,2010)。
在这里插入图片描述
非末端的P和PO代表两种类型的积极情绪表达。 P表示原子阳性表达,为一个单词或短语,而PO表示由多种表达组成的正表达。类似地,非终端N和NE也代表两种类型的负面情绪表达。 “sentiment_shifter N”和“ sentiment_shifter NE”分别代表N和NE的取反,“ sentiment_shifter P”和“ sentiment_shifter PO”分别代表P和PO的取反。我们需要注意的是,这些不是以实际的BNF形式表示的,而是一种伪语言,表示某些抽象概念。我们很难精确地说明它们,因为在实际的句子中,情感转移器可能以许多不同的形式出现,并且可能出现在N,NE,P或PO之前或之后,并且在情感转移器与积极(或消极)情感表达之间可能存在一些单词。POSITIVE和NEGATIVE是用来决定句子中目标/方面的观点的最终情感。

  • 情感转移器(或价转移器(Polanyi和Zaenen,2004年)):否定词如not, never, none, nobody,
    nowhere, neither
    cannot是最常见的情感转移器。情态助动词(例如,would, should, could,
    might, must
    ought)是另​​一种类型,如“The brake could be improved”,可能会改变情感取向,但并非总是如此。某些描述性词汇又是另一种类型。这种情况对于像barely和hardly这样的副词很典型,通过比较It works和It hardly works可以看出。“Works”表示积极,但“hardly works”则不:它以为预期会更好。fail, omit, neglect之类的词的行为类似,例如,“This camera fails to impress me.”此外,讽刺也经常改变方向,例如:“What a great car, it failed to start the first day.”尽管手动识别这些情感转移器可能并不困难,但自动系统在实际语句中识别并正确处理它们却很有挑战性(请参见第4.4节)。同样,下面的11~14规则也可以看作是情绪转移器。我们将它们分开介绍,因为它们还涵盖了比较意见。注意,一些研究人员还研究了否定的应用范围(Ikeda等, 2008; Jia, Yu和Meng, 2009; Li等, 2010; Morante, Schrauwen和Daelemans, 2011)。当我们讨论情绪组成时,将会讨论关于情绪转移器的更多内容。

现在,我们定义N,NE,P和PO,其中不包含任何情感转移器。根据它们的特定特征,我们将这些表达式分为六个概念类别。

  1. 情感词或短语:这是最简单也是最常用的类别,其中情感词或短语本身就可以暗示对某些方面的正面或负面意见,例如,“语音质量良好”中的“良好”。这些单词或短语被简化为P和N。
    在这里插入图片描述
    同样,未指定右侧的详细信息(这也适用于所有后续规则)。目前的很多研究在此类别中只使用单词和短语。

  2. 减少decreased和增加increased观点项的数量(N和P):这套规则类似于上面的否定(或情感转移)规则3、4、7和8。他们表示,减少或增加与某项有根据的项目(通常为名词和名词短语)相关的数量可以改变情感的取向。例如,在句子“This drug reduced my pain significantly”中,“pain”是一个负面情绪词,“pain”的减轻表示该药物具有理想的作用。因此,减轻疼痛隐含对该药的正面评价。减少decreasing的概念还扩展到去除removal和消失disappearance,例如,“My pain disappeared after taking the drug”。因此我们有以下规则:
    在这里插入图片描述
    请注意,规则12和14不会改变情感倾向,但是它们可以改变观点的强度。表示句子中less_or_decreased或more_or_increased的概念的实际单词或短语可能出现在N或P之前或之后,例如,“My pain has subsided after taking the drug”和“This drug has reduced my pain”。

  3. 积极或消极潜在项的高、低、增加和减少:对于某些项,它们的值小/数量少为负,而较大的值/数量多为正,例如“The battery life is short”和“The battery life is long”。我们称此类项目为正潜在项positive potential items(PPI)。在这里,“电池寿命”是一个积极的潜在项。在其他一些方面,它们的值小/数量少为正,而其值/数量较大为负,例如“This phone costs a lot”,“This phone costs a lot”这些项目称为负潜在项negative potential items(NPI)。 “成本”和“价格”是负潜在项。正面和负面的潜在项本身都不暗示任何观点,如“电池寿命”和“成本”,但是当它们被数量形容词或数量变化的单词或短语修饰时,可能暗示着正面或负面的情绪。以下规则涵盖了这些情况:在这里插入图片描述
    在(Wen and Wu,2011)中,提出了一种引导和分类方法来发现中文中的PPI和NPI。

  4. 期望或不期望的事实:上述规则都包含了一些主观表达。但客观表达也可以暗示积极或消极的情绪,因为它们可以描述令人满意和不令人满意的事实。这样的句子通常不使用任何情感词。例如,“我和妻子在床垫上睡了两个星期之后,我看见中间有一座山”这句话显然暗示了对该床垫的负面看法。但是,“山”一词本身没有任何情感。因此,我们有以下两个规则:
    在这里插入图片描述

  5. 偏离正常或期望值范围:在某些应用程序域中,项的值具有期望的范围或规范。如果该值偏离正常范围,则为负,例如,“服用药物后,我的血压达到410。”这样的句子通常也是客观的句子。因此,我们有以下规则:
    在这里插入图片描述

  6. 生产和消费资源与浪费:如果一个实体生产大量资源,则这是可取的(或积极的)。如果它消耗大量资源,则是不可取的(或负面的)。例如,电是一种资源。 “这台计算机消耗大量电能”这句话对计算机的功耗给出了负面评价。同样,如果一个实体产生大量废物,那将是负面的。如果它消耗大量废物,那就是积极的。这些给我们以下规则:
    在这里插入图片描述

这些概念规则可以在实际句子中使用不同的单词和短语以多种形式(似乎是无限的形式)出现,并且在不同的领域中它们也可能以不同的方式体现出来。因此,很难识别它们。如果不识别它们,则无法应用规则。

这套概念规则绝不是支配意见或情感的完整规则。实际上随着进一步的研究,可能会发现更多的规则。同样重要的是要注意,像单个情感词一样,句子中任何规则的出现并不总是暗示观点。例如,尽管“高可靠性”满足规则16,“我想要一辆具有高可靠性的汽车”对任何特定的汽车都没有表达肯定或否定的意见。处理此类句子可能需要更复杂的规则或语句级别分析。

现在,我们讨论使用语意合成性原理 the principle of compositionality在表达水平上表达上述一些规则的现有工作。最多研究的构成规则是与情绪反转相关的规则,这些规则是情绪转移者和正负情绪词的组合,例如“ not”和POS(“ good”)=> NEG(“ not good”)。上面我们已经详细讨论了它们。另一主要类型由上述规则11至14表示,例如,“减轻”和NEG(“疼痛”)=> POS(“减轻疼痛”)。

该组合规则既可以表达某些观点规则,也可以表达其他某些表达层次的情感组合。除了以上两种构成类型外,Moilanen和Pulman(2007)还引入了sentiment conflict,当多个情感词同时出现时,例如“terribly good”,就会使用sentiment conflict。通过根据分配给他们的相对权重对组成部分进行排列来解决冲突,该相对权重指示在情感上哪个构成要素更为重要

在(Neviarouskaya,Prendinger and Ishizuka,2010)中,引入了六种类型的构图规则,即sentiment reversal, aggregation, propagation, domination, neutralization和intensification(情绪反转,汇总,传播,支配,中和和强化)。情绪反转与我们上面讨论的相同。汇总与上面的sentiment conflict相似,但定义不同。如果形容词-名词、名-名词、副词-形容词、副词-动词短语中的词的情感方向相反,则将其极性与前置修饰词的主导极性相混合。例如POS(‘beautiful’)和NEG(‘fight’)=> POSneg(‘beautiful fight)。传播规则适用于在短语/子句中使用“propagation”或“transfer”类型的动词,并且需要确定具有中性极性的自变量的情感时,例如,PROP-POS(‘to admire’)和“his behavior” => POS(“his behavior”);“Mr. X”和TRANS(“supports”)和NEG(“crime business”)=> NEG(“Mr. X”)。支配的规则是:(1)如果动词和从句中的宾语极性相反,则动词的极性占主导地位(例如,NEG(“to deceive”)&POS(“ hopes”)=> NEG (“to deceive hopes”)); (2)如果复合句使用并列连接词but连接从句,则but后面的子句的态度特征占主导地位(例如,‘NEG(“It was hard to climb a mountain all night long”)),but POS(“a
magnificent view rewarded the traveler at the morning”.)’ => POS(整个句子))。中和规则应用于介词修饰语或条件操作符与情感陈述相关时,例如“despite”和NEG(“worries”)=> NEUT(“despite worries尽管存在着担忧”)。强化规则会增强或减弱情感得分(强度),例如Pos_score(“happy”) > Pos_score(“extremely happy”))。其他相关工作可参见(Choi and Cardie, 2008; Ganapathibhotla and Liu, 2008; Min and Park, 2011; Nakagawa, Inui and Kurohashi, 2010; Nasukawa and Yi, 2003; Neviarouskaya, Prendinger and Ishizuka, 2009; Polanyi and Zaenen, 2004; Socher et al., 2011; Yessenalina and Cardie, 2011).

正如我们所看到的,某些意见规则没有通过语义组合来表达,例如那些涉及资源使用的规则(规则25-32)。但是,在某种程度上可以使用三元组来表示它们(Zhang and Liu,2011a)。期望或不期望的事实值范围也未包括在内(规则21-24)。实际上,它们与组合没有直接关系,因为它们本质上是上下文或领域隐含的情感术语,需要在领域语料库中发现(Zhang and Liu,2011b)。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值