【Python数据分析】文本情感分析——电影评论分析(一)

  情感分析是文本分析的一种,它能够从一段文本描述中理解文本的感情色彩,是褒义、贬义还是中性。常见的情感分析的使用场景就是客户对商品或服务的评价、反馈,传统模式下的人工审核,不仅消耗大量人力,而且效率(速度和准确度)也不高。

  这里使用Python对电影《哪吒之魔童降世》的评论进行文本分析,这种分析方式还可用于垃圾邮件的过滤、新闻的分类等场景。

  分析步骤:

  1、对文本数据进行预处理,包括文本缺失值重复值处理、分词、去除停用词、文本向量化。

  2、描述性统计分析,统计词频、生成词云图。

  3、验证性统计分析,通过方差分析进行特征选择。

  4、统计建模,根据文本向量进行文本分类。

文本数据预处理

缺失值处理

  1、检查缺失值。

#查看每一列的缺失值
data.isnull().sum()

在这里插入图片描述
  2、填充缺失值。

#填充缺失值
data['city'].fillna('未知',inplace = True)
data.dropna(inplace = True)
data.isnull().sum()

在这里插入图片描述

重复值处理

  重复数据对文本分析和建模没有帮助,直接删去。

#删除重复记录
data.drop_duplicates(inplace=True)

文本内容清理

  文中的表达符号、特殊字符,通常对文本分析的作用不大,删除。删除文本中的指定字符用正则匹配的方式。
  清洗前:
在这里插入图片描述

#文本内容清洗,清楚特殊符号,用正则表达式
import re
pattern = r"[!\"#$%&'()*+,-./:;<=>?@[\\\]^_^{|}~—!,。?、¥…():【】《》‘’“”\s]+"
re_obj = re.compile(pattern)

#方案A:
def clear(
  • 57
    点赞
  • 562
    收藏
    觉得还不错? 一键收藏
  • 16
    评论
评论 16
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值