情感分析Sentiment Analysis and Opinion Mining Bing Liu 阅读笔记——chapter3

文本情感分类

  • 文档层面的情感分类:整篇文档general
  • 问题定义:如果情感s是两级的,那就是分类问题,如果是实数值或者是依次的打分,类似1-5评分,那就是回归问题。
  • 假设:情感分类or回归问题假设意见文档d(如一个产品的评论)表达的是对单一实体e的意见,包含来自一个单一的观点持有者的意见。
  • 因为,如果一个意见文档评价了多个实体,对于不同实体的意见可能不同,比如,对一部分实体持有positive意见,另一部分negative,因此,在这种情况下,为整个文档分配一个情绪方向没有实际意义。如果多个意见持有者在单个文档中表达意见也没有多大意义,因为他们的意见也可能不同。
  • 这种假设对于商品和服务的评价类的数据成立,因为这种类型的数据一般只专注于评价一种单一的产品或服务,而且一般是一个单一的评价者做出的评价。然而,对于forum,blog这样的数据类型,在一篇帖子中作者可能会对多个实体进行评价,并用比较句子对它们进行比较。

有监督的学习

二分类问题,可以将打分转化为二分类问题(或者三分类),比如,1、2分是negative,3是中性,4、5是positive。

本质上是文本分类任务,但是传统的文本分类是按照话题划分,与话题相关的词是关键特征,在情感分类中,指示情感是p还是n的词语很重要。

  • SVM:Joachims, 1999; Shawe-Taylor and Cristianini, 2000
  • Pang, Lee and Vaithyanathan (2002):使用词袋模型作为特征效果好。
  • 曾被采用过的特征有

    • 词项和词频,词的位置信息,TF-IDF在传统基于话题的文本分类中最常见,权重模型在信息检索中也经常被使用,与传统的文本分类一样,这些特征也被证明对情感分类非常有效。
    • part of speech(POS,词类):形容词对于opinions很重要,有些研究者将形容词当做特殊的特征处理。还可以用句子中所有词的POS 标签和它们的n元组作为特征。本书中采用的是UPenn树库POS标签。
    • 情感词汇和短语:
    • rules of opinions:一些意见规则。除了情感词和短语之外,还有许多其他表达或语言构成可用于表达或暗示情感和观点。

    • sentiment shifters(情感迁移):

    • syntactic dependency(句法依赖性):句法分析树,依赖树,依存关系,产生基于依赖关系的词的特征。

除了采用标准机器学习方法,研究人员还提出了一些针对情感分类的技巧。

文献综述

  • 基于在正面评价和负面评价中的词构造的得分函数Dave, Lawrence and Pennock, 2003
  • 用人工编译的基于某特定领域的词和短语的回归方法Tong, 2001
  • Gamon, 2004:在顾客反馈数据上做的分类,这种数据和评论相比通常是短小&#x
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值