IMBD影评数据的情感分析

IMBD影评数据的情感分析


问题情况

SemEval往年的任务:情感分析(Sentiment Analysis,SA)。

采用的某博客推荐的一个数据集,IMBD影评数据,给出5W条标注数据,每条数据包括影评内容和影评作者对电影评分(1-10整数评分,其中1-5认为是neg,6-10认为是pos,这个数据集是一个均衡数据集,且得分分布关于5.5对称)。

我从5W条中取出一部分做训练集,取出另一部分做测试集,比例为1:1,对于测试集,我写了一个脚本从两方面评价结果,一是我的评分与实际评分的Pearson相关系数(Pearson),二是我的评分的倾向(neg/pos)与实际倾向的正确率(Correct)。


思路

认为得分和该影评对应电影得到pos倾向的概率存在正向关,这个假设显然是合理的。选取合适的转换函数,把得分转化为得到pos倾向标签(tag)的概率。同时认为文本由单词特征(feature)构成。这样本问题转化为一个feature-tag问题,计算出pos倾向的概率,再转化为得分,就是对评分的一个合理的估计。


解法

可以用rank[1, 10]→pro[0, 1]的线性函数来实现得分到概率的转化。

可以用一个朴素贝叶斯来实现feature-tag的基本功能,并做一些数学技巧上的优化。
具体数学原理为:

Naive Bayes Classifier

dim rate = p(pos|sen) / p(neg|sen)
dim log_word_rate[word] = log(p(word|

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值