Moodlens: an emoticon-based sentiment analysis system for chinese tweets Moodlens:一个基于表情符号的中文微博情感分析系统(A3, SIGKDD2012)
文章建立了一个叫Moodlens的系统,是微博上第一中文微博情感分析系统。在Moodlens中,95个表情符号对应四个情感类:生气,厌恶,喜悦和悲伤,作为微博的类标签。收集了350万标记微博作为语料并且训练了一个快速朴素贝叶斯分类器。还实现了一个增量学习方法来处理情感转移和新词产生问题。通过使用高效朴素贝叶斯分类器,Moodlens能够进行实时在线情感监测。
Moodlens系统的主要贡献:帮助解决长期存在的短文本稀疏问题;检测四种类型的情感:生气,厌恶,喜悦和悲伤,而不是传统的二值情感分析;实现了一个增量学习机制;有能力进行实时微博处理和分类,可以作为一个实时异常事件监测系统。
基于表情符号的方法
在1000多个表情符号中,手工选择95个作为情感标签(记为E),划分它们为4个不同的情感类。
从2010年12月到2011年2月,Moodlens收集了7000多万的微博,抽取包含E中表情符号的350万微博作为标记微博集并分类,记为T。这些微博可以作为初始情感语料。对于T中的每条微博,Moodlens转化其为词序列 {
ωi} , ωi 是一个词,i是它在t中的位置。
在Moodlens中,采用简单的朴素贝叶斯方法建立分类器,需要少量的训练时间并且快速预测类别。从标签微博,获得单词 ωi 属于情感类别 cj 的先验概率 P(ωi|cj)=ncj(ωi)+1∑q(ncj(ωq)+1) , j=1,2,3,4 , ncj(ωi) 是词 ωi 在类 cj 中所有微博中出现的次数,使用拉普拉斯平滑来避免0概率问题。
建立NB分类器:对于一个词序列为