情感分析与观点挖掘第四章笔记/SentimentAnalysis-and-OpinionMining by Bing Liu

4.1 主观性分类

主观性分类将句子分为主观和客观两大类(Wiebe,Bruce和O’Hara, 1999)。客观句子表达一些事实信息,而主观句子通常表达个人观点。实际上,主观句子可以表达许多类型的信息,例如观点,评价,情感,信念,推测,判断,指控,立场等(Quirk等,1985; Wiebe,Bruce和O’Hara,1999)。其中一些表示正面或负面情绪,而另一些则不然。早期的研究将主观性分类作为一个独立的问题来解决,即不是出于情感分类的目的。在最近的研究中,一些研究者把它作为情感分类的第一步,用它来删除那些被认为没有表达或暗示观点的客观句子。

大多数现有的主观分类方法都是基于监督学习的。例如,(Wiebe,Bruce和O’Hara,1999年)的早期工作中,使用朴素贝叶斯分类器进行主观分类,该分类器具有一组二元特征,例如一个代词、一个形容词、一个基数、一个非will的情态动词和一个非not的副词在句子中的存在。随后的研究还使用了其他学习算法和更复杂的功能。

在(Wiebe,2000)中,Wiebe提出了一种无监督的主观分类方法,该方法仅使用句子中主观表达的存在来确定句子的主观性。由于没有一套完整的这样的表达方式,它提供了一些种子,然后使用分布相似性(Lin,1998)来查找也可能是主观性指示的相似词。但是,以这种方式发现的单词的精度较低,召回率很高。然后,使用(Hatzivassiloglou和McKeown,1997)中的方法和(Hatzivassiloglou和Wiebe,2000)中的gradability可分级性来过滤错误的主观表达。我们将在(Hatzivassiloglou and McKeown,1997)第6.2节中讨论该方法。可分级性是一种语义属性,它使一个词出现在比较结构中,并接受作为增强词或减强词的修饰性表达式。相对于由修饰名词明确提及或隐含提供的规范(例如,小行星通常比大房子大得多),可分级形容词以不同程度的强度表示属性。可分级的形容词是在人工编辑的通常用作评分修饰语的副词和名词短语(例如,很少,非常,有些和非常)的种子列表找到的。这种可分级形容词是主观性的良好指标。

在(Yu and Hatzivassiloglou,2003)中,Yu和Hatzivassiloglou使用句子相似性和朴素的贝叶斯分类器进行了主观性分类。句子相似度法是基于主观或观点句与其他观点句的相似度大于事实句的相似度的假设。他们使用(Hatzivassiloglou等, 2001)中的SIMFINDER系统,基于共享的单词,短语和WordNet同义词集来测量句子相似度。对于朴素贝叶斯分类,他们使用的特征包括单词(unigram),bigrams,trigram,词性,情感词的存在,情感词序列的极性(或方向)计数(例如“ ++” ”(用于两个连续的正向单词),以及与情感信息相结合的词类计数(例如,“ JJ +”代表正向形容词),以及对主要动词、主要主语及其直接修饰符的情感(如果有)进行编码的特征。这项工作还做了情感分类,以确定一个主观句子是积极的还是消极的,我们将在下一节讨论。

应用监督学习的瓶颈之一是注释大量训练样本所涉及的手动工作。为了节省人工标注的工作量,在(Riloff和Wiebe,2003)中提出了一种自动标注训练数据的bootstrapping自举方法。该算法首先使用两个高精度分类器(HP-Subj和HP-Obj)来自动识别一些主观和客观句子。高精度分类器使用作为主观线索的词汇项列表(单个单词或n-grams)。如果HP-Subj包含两个或多个强烈的主观线索,则将该句子归类为主观句子。如果没有很强的主观线索,HP-Obj会将句子归类为客观句子。这些分类器将提供很高的精度precision,但召回率却很低。然后将提取的句子添加到训练数据中以学习模式。这些模式(在下一个迭代中形成主观性分类器)被用来自动识别更多的主客观句子,然后将这些句子添加到训练集中,算法的下一个迭代就开始了。

对于模式学习,提供了一组语法模板以限制要学习的模式的种类。下面显示了一些示例语法模板和示例模式。

在这里插入图片描述
Wiebe和Riloff(2005)使用发现的模式来生成基于规则的方法,来产生用于主观分类的训练数据。基于规则的主观分类器将包含两个或两个以上强主观线索的句子归类为主观的句子(否则,它不会标记该句子)。对比之下,基于规则的客观分类器则寻找线索的缺失:如果句子中没有强烈的主观线索,则它将一个句子分类为客观句,或其他几种情况。该系统还使用信息提取系统AutoSlog-TS(Riloff, 1996年)学习有关客观句的新句型,AutoSlog-TS基于一些固定的句法模板查找句型模式。基于规则的分类器生成的数据用于训练一个朴素贝叶斯分类器。 (Wiebe等, 2004)也报道了一项相关研究,该研究使用一组更全面的特征或主观线索来进行主观分类。

Riloff,Patwardhan和Wiebe(2006)研究了不同特征之间的关系。他们定义了单字组,n元组和词汇句法模式之间的包容关系。如果某个特征被另一个特征所包含,则不需要被包含的特征。这可以删除许多冗余特征。

(Pang和Lee,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值