IMBD影评数据的情感分析

最新推荐文章于 2025-04-18 20:11:56 发布

pku_zzy

最新推荐文章于 2025-04-18 20:11:56 发布

阅读量5.1k

点赞数

分类专栏： Machine Learing

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/PKU_ZZY/article/details/54782733

版权

本文介绍了对IMDB影评数据进行情感分析的过程，包括问题背景、解决思路、使用朴素贝叶斯方法进行解法，并探讨了否定词处理、句式结构考虑、文本预处理等优化手段对结果的影响。测试结果显示，否定词处理和原理优化显著提升了分析效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

IMBD影评数据的情感分析

问题情况

SemEval往年的任务:情感分析(Sentiment Analysis，SA)。

采用的某博客推荐的一个数据集，IMBD影评数据，给出5W条标注数据，每条数据包括影评内容和影评作者对电影评分(1-10整数评分，其中1-5认为是neg，6-10认为是pos，这个数据集是一个均衡数据集，且得分分布关于5.5对称)。

我从5W条中取出一部分做训练集，取出另一部分做测试集，比例为1:1，对于测试集，我写了一个脚本从两方面评价结果，一是我的评分与实际评分的Pearson相关系数(Pearson)，二是我的评分的倾向(neg/pos)与实际倾向的正确率(Correct)。

思路

认为得分和该影评对应电影得到pos倾向的概率存在正向关，这个假设显然是合理的。选取合适的转换函数，把得分转化为得到pos倾向标签(tag)的概率。同时认为文本由单词特征(feature)构成。这样本问题转化为一个feature-tag问题，计算出pos倾向的概率，再转化为得分，就是对评分的一个合理的估计。

解法

可以用rank[1, 10]→pro[0, 1]的线性函数来实现得分到概率的转化。

可以用一个朴素贝叶斯来实现feature-tag的基本功能，并做一些数学技巧上的优化。
具体数学原理为:

Naive Bayes Classifier

dim rate = p(pos|sen) / p(neg|sen)
dim log_word_rate[word] = log(p(word|

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。