Sentiment Analysis and Opinion Mining (3)- Document Sentiment Classification



    情感分类可以简单的归于一个二分类问题:Positive 和 Negative。训练集和测试集可以用商品的评论数据,商品的评论一般有整体评分,4-5分可以认为是Positive,1-2分可以认为是Negative。一般都没有考虑中立 Neutral 类。

    情感分类也是一个文本分类问题,传统的文本分类主要特征是主题相关词,而情感分类主要特征是情感和观点词,如:great, amazing, excellent, horrible, bad, worse etc.Pang, Lee 2002  movie reviews  Naive Bayes SVM


Terms and their frequency:  Term , N-grams, TF , IDF, Term Position

Pos of speech: 词性标注,Pos tags and their n-grams, 如对于观点的表达,形容词比较重要

Sentiment words and phrases: 情感词典, 常用的表达情感的词汇,主要是形容词、动词和名词

Rules of opinions:观点规则,除情感词外,常用的表达隐含情感的规则

Sentiment Shifters:情感转移,能改变情感倾向的词汇,否定词,如:not 不

Syntactic dependency:语法依赖树


    情感分类和领域强相关,一个领域内的情感分类模型在其他领域的表现会很糟糕。如果想进行领域扩展,如酒店领域扩展到家具领域,就需要Domain Adaptation 或 Transfer Learning。


