1. 什么是文档级情感分类
文档级情感分类是指对一篇给定观点的文档(如产品评论)根据所持观点为正面或负面进行分类。正面或负面观点又称为情感的倾向性或急性。文档级情感分类不涉及文档中具体的实体或属性。
文档级情感分类一般假设文档表达的观点仅针对一个单独的实体,并且只包含一个观点持有者的观点。不过这种假设在现实中是很难符合的,因此,文档级情感分类也是最简单的情感分析任务,一般通过文本分类即可完成。
2. 文档级情感分类方法
2.1 基于监督的情感分类
2.1.1 基于机器学习和深度学习的情感分类
文档级的情感分类采用机器学习和深度学习训练分类模型的做法居多,在词向量提出来之前,很多情感分类都是采用传统机器学习的做法,比如SVM、朴素贝叶斯等,学者主要通过词频、TFIDF、BM25、词性、情感词、转折词等统计特征构建特征工程,然后基于人工标注的类别训练文本分类模型。
近几年,随着深度学习的发展,很多深度学习模型在情感分类上的效果取得了更好的分类效果,比如RNN、TextCNN、FastText、HAN、lstm-cnn等,具体的模型可以参考笔者前面的文章介绍,这里不具体展开。
2.1.1 使用自定义打分函数的情感分类
除了机器学习和深度学习监督模型之外,学者也通过一些打分函数直接对文档的情感进行分类,比如Dave等人提出来的打分函数:
score ( t i ) = Pr ( t i ∣ C ) − Pr ( t i ∣ C ′ ) Pr ( t i ∣ C ) + Pr ( t i ∣ C ′ ) \operatorname{score}\left(t_{i}\right)=\frac{\operatorname{Pr}\left(t_{i} | C\right)-\operatorname{Pr}\left(t_{i} | C^{\prime}\right)}{\operatorname{Pr}\left(t_{i} | C\right)+\operatorname{Pr}\left(t_{i} | C^{\prime}\right)} score(ti)=Pr(ti∣C)+Pr(ti∣C′)Pr(t