一种全面的基于词典的观点挖掘方法
1,能处理上下文相关(Context Depend)的观点词
2,能处理一些能通过其语法模式(Linguistic Pattern)影响观点的特殊词(Words)、短语(Phrase)以及语言结构(Language Structure)。
3,提供了一个有效的函数能综合句子中多个互相冲突的观点词
本文只考虑判断句子的情感倾向(Sentiment Orientation)。判断情感倾向最简单的方式就是使用情感词典,对于一个句子,分别对在情感词典正向和负向中的情感词进行计数,如果正向情感词多则句子为正向。The opinion lexicon or the set of opinion words was obtained through a bootstrapping process using WordNet. 此方法主要有两个问题:1,情感词典的完备性 2,上下文相关的情感词无法处理,如Small在有些句子中是正向有些中则是负向。
基于语料的方法(corpus-based apprapch):通过挖掘词的共现信息来判断情感倾向
基于词典的方法(dictionary-based approach):基于种子词以及WordNet中的同义和反义关系来判断情感倾向
1,识别和抽取评论对象(Entity or Parts of an entity or Attributes of an entity)/Entity Aspect
2,识别观点是正向、负向还是中立
3,对评论对象进行同义聚类,因为不同的人会有不同的表述方式
核心思想还是使用情感词来判断网民对某个产品方面/评论对象的情感倾向,主要有三个问题:
1,如何将多个情感词组合起来,情感词之间可能是冲突的
2,如何处理上下文相关或领域相关的情感词
3,如何处理能改变情感倾向的语言结构
情感词、短语和成语
表达情感倾向的主要是形容词、副词、动词和名词。基本的情感词点使用WordNet通过Bootstrapping Approach获取。词性标注part of speech(POS),使用NLProcessor linguistic parser。成语一般都表达了强烈的情感,人工收集整理。
观点综合
综合公式:考虑情感词与评价对象之间的距离,越远权重越小。
否定规则:
1,传统否定词:no not nerver
2,pattern-based: stop + vb-ing , quit + vb+ing / stop working
3,含否定词但不是负向:not just, 不仅仅是因为
但是规则:
1,but except
2,直接评价,如没有结果,则取but前的反向
3,含but,但没有转折含义。not only …. but also
上下文相关观点处理
句子内连词规则(Intra-sentence conjunction rule):
1,基于人们常用的语法习惯,如果没有but的话,一般一个句子表达一个倾向。
2,The camera taks great pictures and has a long battery life. 如果我们知道great是正向的,那么long也是正向的
隐含句子内连词规则(Psudo Intra-sentence conjunction rule):
1,没有明确的and,如 The camera has a long battery life, which is great.
形容词为评价对象/评价特征时(Adjectives as feature indicators):
1,this camera is small. “small” indicates feature “size”
非形容词显式特征(Explicit features that are not adjective):
1, the battery life of this camera is long
句子间连词规则(Inter-sentence conjunction rule):
1,基于假设,人们在句子间也经常表达相同的倾向,除非有but, however等
同义词反义词规则(synonym and antonym rule):
1,如果一个词是正向情感,那么其同义词也是正向情感,反义词为负向情感