文本情感分类
- 文档层面的情感分类:整篇文档general
- 问题定义:如果情感s是两级的,那就是分类问题,如果是实数值或者是依次的打分,类似1-5评分,那就是回归问题。
- 假设:情感分类or回归问题假设意见文档d(如一个产品的评论)表达的是对单一实体e的意见,包含来自一个单一的观点持有者的意见。
- 因为,如果一个意见文档评价了多个实体,对于不同实体的意见可能不同,比如,对一部分实体持有positive意见,另一部分negative,因此,在这种情况下,为整个文档分配一个情绪方向没有实际意义。如果多个意见持有者在单个文档中表达意见也没有多大意义,因为他们的意见也可能不同。
- 这种假设对于商品和服务的评价类的数据成立,因为这种类型的数据一般只专注于评价一种单一的产品或服务,而且一般是一个单一的评价者做出的评价。然而,对于forum,blog这样的数据类型,在一篇帖子中作者可能会对多个实体进行评价,并用比较句子对它们进行比较。
有监督的学习
二分类问题,可以将打分转化为二分类问题(或者三分类),比如,1、2分是negative,3是中性,4、5是positive。
本质上是文本分类任务,但是传统的文本分类是按照话题划分,与话题相关的词是关键特征,在情感分类中,指示情感是p还是n的词语很重要。
- SVM:Joachims, 1999; Shawe-Taylor and Cristianini, 2000
- Pang, Lee and Vaithyanathan (2002):使用词袋模型作为特征效果好。
曾被采用过的特征有
- 词项和词频,词的位置信息,TF-IDF在传统基于话题的文本分类中最常见,权重模型在信息检索中也经常被使用,与传统的文本分类一样,这些特征也被证明对情感分类非常有效。
- part of speech(POS,词类):形容词对于opinions很重要,有些研究者将形容词当做特殊的特征处理。还可以用句子中所有词的POS 标签和它们的n元组作为特征。本书中采用的是UPenn树库POS标签。
- 情感词汇和短语:
rules of opinions:一些意见规则。除了情感词和短语之外,还有许多其他表达或语言构成可用于表达或暗示情感和观点。
sentiment shifters(情感迁移):
- syntactic dependency(句法依赖性):句法分析树,依赖树,依存关系,产生基于依赖关系的词的特征。
除了采用标准机器学习方法,研究人员还提出了一些针对情感分类的技巧。
文献综述
- 基于在正面评价和负面评价中的词构造的得分函数Dave, Lawrence and Pennock, 2003
- 用人工编译的基于某特定领域的词和短语的回归方法Tong, 2001
- Gamon, 2004:在顾客反馈数据上做的分类,这种数据和评论相比通常是短小&#x