IMBD影评数据的情感分析

本文介绍了对IMDB影评数据进行情感分析的过程,包括问题背景、解决思路、使用朴素贝叶斯方法进行解法,并探讨了否定词处理、句式结构考虑、文本预处理等优化手段对结果的影响。测试结果显示,否定词处理和原理优化显著提升了分析效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

IMBD影评数据的情感分析


问题情况

SemEval往年的任务:情感分析(Sentiment Analysis,SA)。

采用的某博客推荐的一个数据集,IMBD影评数据,给出5W条标注数据,每条数据包括影评内容和影评作者对电影评分(1-10整数评分,其中1-5认为是neg,6-10认为是pos,这个数据集是一个均衡数据集,且得分分布关于5.5对称)。

我从5W条中取出一部分做训练集,取出另一部分做测试集,比例为1:1,对于测试集,我写了一个脚本从两方面评价结果,一是我的评分与实际评分的Pearson相关系数(Pearson),二是我的评分的倾向(neg/pos)与实际倾向的正确率(Correct)。


思路

认为得分和该影评对应电影得到pos倾向的概率存在正向关,这个假设显然是合理的。选取合适的转换函数,把得分转化为得到pos倾向标签(tag)的概率。同时认为文本由单词特征(feature)构成。这样本问题转化为一个feature-tag问题,计算出pos倾向的概率,再转化为得分,就是对评分的一个合理的估计。


解法

可以用rank[1, 10]→pro[0, 1]的线性函数来实现得分到概率的转化。

可以用一个朴素贝叶斯来实现feature-tag的基本功能,并做一些数学技巧上的优化。
具体数学原理为:

Naive Bayes Classifier

dim rate = p(pos|sen) / p(neg|sen)
dim log_word_rate[word] = log(p(word|

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值