情感分析这个东东目前比较流行的,貌似最早的关于情感分析方面的论文是Po Pang在2002的一篇关于利用SVM,ME和Naive Bayes来计算情感倾向性的文章。貌似在同一年Truing也发了一篇计算情感倾向性的文章,用的方法是信息理论中的点互信息度(PMI)。之后SA这个领域就蓬勃发展起来了,基本上ML上的方法都已经用了一遍了,甚至连非负矩阵分解那么夸张的方法IBM Waston实验室的牛人都用了。就差没用神经网络了。而Role-Based的方法几乎是没人用的。N多年前IBM日本实验室的一个叔叔曾经在他的的role-based的MT引擎上做了改进为SA分析引擎算是一个比较好的方法了。至于国内,做的人不是很多的,ICT的Songban Tan和北京大学的Xiaojun Wan这两年都在这方面研究的,只是他们研究的情感分析都是主流的情感分析Tan研究的是领域间的情感分析,而Wan研究的是语言间的情感分析,说起来国内还有的就是N多年前上海交大的姚天昉老师他们做的Role-Based的SA了。
那么SA的基本研究方法是怎么样的呢?
首先当然是预处理了啊,分词啊,去停止词啊,Stemming啊,tf-idf啊。
然后呢可以处理一下主观句和中性句,据说这个对于SA的准确率还是蛮有影响的。
然后是抽取特征n-gram,POS是两类最基本的特征了,其他的特征抽取就是各种各样都有的了,只有想不到没有做不到。
最后ML,方法呢最基本的SVM,ME和Naive Bayes。
这些呢,是偶对于SA半年来学习的结果的,先写这么多,以后再补充吧。
这两天再看Tree Kernel,真的不知道那个叔叔是怎么实现的效率那么高,偶实现的版本和他差距好大哦。