文档级情感分类

1. 什么是文档级情感分类

文档级情感分类是指对一篇给定观点的文档(如产品评论)根据所持观点为正面或负面进行分类。正面或负面观点又称为情感的倾向性或急性。文档级情感分类不涉及文档中具体的实体或属性。

文档级情感分类一般假设文档表达的观点仅针对一个单独的实体,并且只包含一个观点持有者的观点。不过这种假设在现实中是很难符合的,因此,文档级情感分类也是最简单的情感分析任务,一般通过文本分类即可完成。

2. 文档级情感分类方法

2.1 基于监督的情感分类
2.1.1 基于机器学习和深度学习的情感分类

文档级的情感分类采用机器学习和深度学习训练分类模型的做法居多,在词向量提出来之前,很多情感分类都是采用传统机器学习的做法,比如SVM、朴素贝叶斯等,学者主要通过词频、TFIDF、BM25、词性、情感词、转折词等统计特征构建特征工程,然后基于人工标注的类别训练文本分类模型。

近几年,随着深度学习的发展,很多深度学习模型在情感分类上的效果取得了更好的分类效果,比如RNN、TextCNN、FastText、HAN、lstm-cnn等,具体的模型可以参考笔者前面的文章介绍,这里不具体展开。

2.1.1 使用自定义打分函数的情感分类

除了机器学习和深度学习监督模型之外,学者也通过一些打分函数直接对文档的情感进行分类,比如Dave等人提出来的打分函数:
score ⁡ ( t i ) = Pr ⁡ ( t i ∣ C ) − Pr ⁡ ( t i ∣ C ′ ) Pr ⁡ ( t i ∣ C ) + Pr ⁡ ( t i ∣ C ′ ) \operatorname{score}\left(t_{i}\right)=\frac{\operatorname{Pr}\left(t_{i} | C\right)-\operatorname{Pr}\left(t_{i} | C^{\prime}\right)}{\operatorname{Pr}\left(t_{i} | C\right)+\operatorname{Pr}\left(t_{i} | C^{\prime}\right)} score(ti)=Pr(tiC)+Pr(tiC)Pr(t

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值