实战项目-用户评论数据情绪分析

海星？海欣！

已于 2023-02-23 17:07:20 修改

阅读量1.6k

点赞数 1

分类专栏： python - 实战项目文章标签：人工智能 python 数据挖掘数据分析

于 2023-02-11 12:55:06 首次发布

本文链接：https://blog.csdn.net/Sun123234/article/details/128976080

版权

1、基于词典的方法

概括来讲，首先有一个人工标注好的词典。词典中的每一个词都对应着消极或积极的标签。
在这里插入图片描述
这个词典可能有上万条或者几十万条，当然是越多越好。
情绪分析流程：
1，收到评论：”这门课程很好啊！“
2，分词：”[‘这门’, ‘课程’, ‘很’, ‘好’, ‘啊’, ‘！’]“
3，拿分好的词依次去匹配词典。匹配的方法很简单：

如果词典中存在该词且为积极标签，那么我们记 +1+1;
如果词典中存在该词且为消极标签，那么我们记 -1−1;
如果词典中不存在该词，我们记 00。

4，匹配完一个句子之后，我们就可以计算整个句子的得分。总得分 >0>0 表示该句子情绪为积极，总得分小于零代表该句子为消极，总得分 =0=0 表示无法判断情绪。

此方法优点：简单，
缺点1：往往需要一个很大的词典，且不断更新。这对人力物力都是极大的考验。
缺点2：该方法还有无法通过扩充词典解决的情绪判断问题。
例如，当我们人类在判断一句话的清晰时，我们会往往更偏向于从整体把握（语言环境），尤其是在乎一些语气助词对情绪的影响。而基于词典进行情绪分析的方法就做不到这一点，将句子拆成词，就会影响句子的整体情绪表达。
缺点3：准确率并不高

目前，针对中文做情绪标注的词典少之又少。比较常用的有：

台湾大学 NTUSD 情绪词典。
《知网》情绪分析用词语集。

以《知网》情绪词典举例，它包含有 5 个文件，分别列述了正面与负面的情绪词语以及程度词汇。

“正面情感”词语，如：爱，赞赏，快乐，感同身受，好奇，喝彩，魂牵梦萦，嘉许 …
“负面情感”词语，如：哀伤，半信半疑，鄙视，不满意，不是滋味儿，后悔，大失所望 …
“正面评价”词语，如：不可或缺，部优，才高八斗，沉鱼落雁，催人奋进，动听，对劲儿 …
“负面评价”词语，如：丑，苦，超标，华而不实，荒凉，混浊，畸轻畸重，价高，空洞无物 …
“程度级别”词语，
“主张”词语

2、基于词袋或 Word2Vec 的方法

2.1 词袋模型

词袋不再将一句话看做是单个词汇构成，而是当作一个 1 \times N1×N 的向量。
举例
我们现在有两句话需要处理，分别是：

我爱你，我非常爱你。我喜欢你，我非常喜欢你。

我们针对这两句话进行分词之后，去重处理为一个词袋：

[‘我’, ‘爱’, ‘喜欢’, ‘你’, ‘非常’]

然后，根据词袋，我们对原句子进行向量转换。其中，向量的长度 N 为词袋的长度，而向量中每一个数值依次为词袋中的词出现在该句子中的次数。

我爱你，我非常爱你。 → [2, 2, 0, 2, 1]
我喜欢你，我非常喜欢你。 → [2, 0, 2, 2, 1]

有了词袋，有了已经人工标注好的句子，就组成了我们的训练数据。再根据机器学习方法来构建分类预测模型。从而判断新输入句子的情绪。

词袋模型和独热编码非常相似。其实这里就是将之前独热编码里的词变成了句子而已。

词袋模型固然比简单的词典对比方法更好，但独热编码无法度量上下文之间的距离，也就无法结合上下文进行情绪判断。引入词向量的 Word2Vec 处理方法，来克服这个缺点。

2.2 Word2Vec

Word2Vec，故名思意就是将句子转换为向量，也就是词向量。它是由浅层神经网络组成的词向量转换模型。

Word2Vec 的输入一般为规模庞大的语料库，输出为向量空间。Word2Vec 的特点在于，语料库中的每个词都对应了向量空间中的一个向量，拥有上下文关系的词，映射到向量空间中的距离会更加接近。

Word2Vec 的主要结构是 CBOW（Continuous Bag-of-Words Model）模型和 Skip-gram（Continuous Skip-gram）模型结合在一起。简单来讲，二者都是想通过上下文得到一个词出现的概率。

CBOW 模型通过一个词的上下文（各 N 个词）预测当前词。而 Skip-gram 则恰好相反，他是用一个词预测其上下文，得到了当前词上下文的很多样本，因此可用于更大的数据集。

CBOW（N=2）和 Skip-gram 的结构如下图所示：
在这里插入图片描述
图中 w(t)w(t) 表示当前的词汇，而 w(t−n)w(t−n)，w(t+n)w(t+n) 等则用来表示上下文词汇。

3、案例：用户评论情绪分析

方法： Word2Vec 结合决策树的文本情绪分析方法
思路：需要使用 Word2Vec 来建立向量空间，之后再使用决策树训练文本情绪分类模型。

3.1 数据读取

由于我们未人工针对案例评论数据进行语料库标注，所以这里需要选择其他的已标注语料库进行模型训练。这里，我们选用了网友苏剑林提供的语料库。该语料库整合了书籍、计算机等 7 个领域的评论数据。

获取数据：

!wget -nc "http://labfile.oss.aliyuncs.com/courses/764/data_09.zip"
!unzip -o "data_09.zip"

三个数据文本预览：

import pandas as pd
#消极情绪文本 neg.xls 共有 10428 行。
pd.read_excel("data_09/data/neg.xls", header=None).head()
#积极情绪文本 pos.xls 共有 10679 行
pd.read_excel("data_