Moodlens：一个基于表情符号的中文微博情感分析系统（A3, SIGKDD2012）

最新推荐文章于 2024-03-06 14:13:42 发布

VIP文章 gsp_2015

最新推荐文章于 2024-03-06 14:13:42 发布

阅读量4.6k

点赞数

分类专栏：论文阅读之倾向性分析文章标签： Moodlens NB 表情符号异常事件检测

本文链接：https://blog.csdn.net/ABCD2010014357/article/details/48656631

版权

Moodlens: an emoticon-based sentiment analysis system for chinese tweets Moodlens：一个基于表情符号的中文微博情感分析系统（A3, SIGKDD2012）

文章建立了一个叫Moodlens的系统，是微博上第一中文微博情感分析系统。在Moodlens中，95个表情符号对应四个情感类：生气，厌恶，喜悦和悲伤，作为微博的类标签。收集了350万标记微博作为语料并且训练了一个快速朴素贝叶斯分类器。还实现了一个增量学习方法来处理情感转移和新词产生问题。通过使用高效朴素贝叶斯分类器，Moodlens能够进行实时在线情感监测。
Moodlens系统的主要贡献：帮助解决长期存在的短文本稀疏问题；检测四种类型的情感：生气，厌恶，喜悦和悲伤，而不是传统的二值情感分析；实现了一个增量学习机制；有能力进行实时微博处理和分类，可以作为一个实时异常事件监测系统。

基于表情符号的方法

在1000多个表情符号中，手工选择95个作为情感标签（记为E），划分它们为4个不同的情感类。
从2010年12月到2011年2月，Moodlens收集了7000多万的微博，抽取包含E中表情符号的350万微博作为标记微博集并分类，记为T。这些微博可以作为初始情感语料。对于T中的每条微博，Moodlens转化其为词序列 $\{\omega_i\}$ ， $\omega_i$ 是一个词，i是它在t中的位置。
在Moodlens中，采用简单的朴素贝叶斯方法建立分类器，需要少量的训练时间并且快速预测类别。从标签微博，获得单词 $\omega_i$ 属于情感类别 $c_j$ 的先验概率 $P(\omega_i|c_j)=\frac{n^{c_j}(\omega_i)+1}{\sum_q(n_{c_j}(\omega_q)+1)}$ ， $j=1,2,3,4$ ， $n^{c_j}(\omega_i)$ 是词 $\omega_i$ 在类 $c_j$ 中所有微博中出现的次数，使用拉普拉斯平滑来避免0概率问题。
建立NB分类器：对于一个词序列为

最低0.47元/天解锁文章

gsp_2015

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
Moodlens：一个基于表情符号的中文微博情感分析系统（A3, SIGKDD2012）

Moodlens: an emoticon-based sentiment analysis system for chinese tweets Moodlens：一个基于表情符号的中文微博情感分析系统（A3, SIGKDD2012）文章建立了一个叫Moodlens的系统，是微博上第一中文微博情感分析系统。在Moodlens中，95个表情符号对应四个情感类：生气，厌恶，喜悦和悲伤，作为微博的类标签。
复制链接

扫一扫