【Python数据分析】文本情感分析——电影评论分析（一）

最新推荐文章于 2025-04-09 17:35:12 发布

紫雪凝香

最新推荐文章于 2025-04-09 17:35:12 发布

阅读量2.3w

点赞数 58

分类专栏： Python 机器学习算法文章标签： python 数据分析

本文链接：https://blog.csdn.net/WANG_hl/article/details/105224231

版权

本文介绍了使用Python进行文本情感分析，以电影《哪吒之魔童降世》的评论为例，涉及文本预处理（缺失值处理、重复值处理、内容清理、分词、停用词处理）、词汇统计（频数、词云图）等步骤，为后续的文本分类做准备。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

情感分析是文本分析的一种，它能够从一段文本描述中理解文本的感情色彩，是褒义、贬义还是中性。常见的情感分析的使用场景就是客户对商品或服务的评价、反馈，传统模式下的人工审核，不仅消耗大量人力，而且效率（速度和准确度）也不高。

这里使用Python对电影《哪吒之魔童降世》的评论进行文本分析，这种分析方式还可用于垃圾邮件的过滤、新闻的分类等场景。

分析步骤：

1、对文本数据进行预处理，包括文本缺失值重复值处理、分词、去除停用词、文本向量化。

2、描述性统计分析，统计词频、生成词云图。

3、验证性统计分析，通过方差分析进行特征选择。

4、统计建模，根据文本向量进行文本分类。

文本数据预处理

缺失值处理

1、检查缺失值。

#查看每一列的缺失值
data.isnull().sum()

在这里插入图片描述
2、填充缺失值。

#填充缺失值
data['city'].fillna('未知',inplace = True)
data.dropna(inplace = True)
data.isnull().sum()

在这里插入图片描述

重复值处理

重复数据对文本分析和建模没有帮助，直接删去。

#删除重复记录
data.drop_duplicates(inplace=True)

文本内容清理

文中的表达符号、特殊字符，通常对文本分析的作用不大，删除。删除文本中的指定字符用正则匹配的方式。
清洗前：
在这里插入图片描述

#文本内容清洗，清楚特殊符号，用正则表达式
import re
pattern = r"[!\"#$%&'()*+,-./:;<=>?@[\\\]^_^{|}~—！，。？、￥…（）：【】《》‘’“”\s]+"
re_obj = re.compile(pattern)

#方案A：
def clear(

最低0.47元/天解锁文章