python 多分类情感词典_基于情感词典的文本情感分类

最新推荐文章于 2024-07-22 10:22:43 发布

weixin_39960019

最新推荐文章于 2024-07-22 10:22:43 发布

阅读量1.4k

点赞数 2

文章标签： python 多分类情感词典

基于情感词典的文本情感分类

传统的基于情感词典的文本情感分类，是对人的记忆和判断思维的最简单的模拟，如上图。我们首先通过学习来记忆一些基本词汇，如否定词语有“不”，积极词语有“喜欢”、“爱”，消极词语有“讨厌”、“恨”等，从而在大脑中形成一个基本的语料库。然后，我们再对输入的句子进行最直接的拆分，看看我们所记忆的词汇表中是否存在相应的词语，然后根据这个词语的类别来判断情感，比如“我喜欢数学”，“喜欢”这个词在我们所记忆的积极词汇表中，所以我们判断它具有积极的情感。

基于上述思路，我们可以通过以下几个步骤实现基于情感词典的文本情感分类：预处理、分词、训练情感词典、判断，整个过程可以如下图所示。而检验模型用到的原材料，包括薛云老师提供的蒙牛牛奶的评论，以及从网络购买的某款手机的评论数据(见附件)。

文本的预处理

由网络爬虫等工具爬取到的原始语料，通常都会带有我们不需要的信息，比如额外的Html标签，所以需要对语料进行预处理。由薛云老师提供的蒙牛牛奶评论也不例外。我们队伍使用Python作为我们的预处理工具，其中的用到的库有Numpy和Pandas，而主要的文本工具为正则表达式。经过预处理，原始语料规范为如下表，其中我们用-1标注消极情感评论，1标记积极情感评论。

句子自动分词

为了判断句子中是否存在情感词典中相应的词语，我们需要把句子准确切割为一个个词语，

最低0.47元/天解锁文章

weixin_39960019

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。