Evaluating Machine Learning and Unsupervised Semantic Orientation Approaches for Sentiment Analysis of Textual Reviews 评估文本评论情感分析的机器学习和非监督语义倾向性方法(IEEE2012)
文章中情感分析问题可以形式上定义为:给定一个文档集D,情感分类算法划分文档集中的每一个文档为两类,积极和消极。有时也使用中立类,表示那些文档不表达任何主观情感。
基于机器学习的分类器
- 朴素贝叶斯算法
可以看成两类文本分类问题。
计算文档d在类c中的概率: P(c|d)=P(c)∏1≤k≤ndP(tk|c) (1) , P(tk|c) 是词项 tk 出现在类c中的一个文档的条件概率。 P(c) 是文档出现在类c的先验概率。被选择的词项通常叫做特征。为了进行话题分类,使用例如词项频率大于一定值的特征。为了划分文档,抽取带有特定标签的词项,例如形容词或形容词+副词的组合可能是一个好的选择。
文档的类别归属通过(2)式计算: cmap=argmaxc∈CP^(c|d)=argmaxc∈CP