情感分析是文本分析的一种,它能够从一段文本描述中理解文本的感情色彩,是褒义、贬义还是中性。常见的情感分析的使用场景就是客户对商品或服务的评价、反馈,传统模式下的人工审核,不仅消耗大量人力,而且效率(速度和准确度)也不高。
这里使用Python对电影《哪吒之魔童降世》的评论进行文本分析,这种分析方式还可用于垃圾邮件的过滤、新闻的分类等场景。
分析步骤:
1、对文本数据进行预处理,包括文本缺失值重复值处理、分词、去除停用词、文本向量化。
2、描述性统计分析,统计词频、生成词云图。
3、验证性统计分析,通过方差分析进行特征选择。
4、统计建模,根据文本向量进行文本分类。
文本数据预处理
缺失值处理
1、检查缺失值。
#查看每一列的缺失值
data.isnull().sum()
2、填充缺失值。
#填充缺失值
data['city'].fillna('未知',inplace = True)
data.dropna(inplace = True)
data.isnull().sum()
重复值处理
重复数据对文本分析和建模没有帮助,直接删去。
#删除重复记录
data.drop_duplicates(inplace=True)
文本内容清理
文中的表达符号、特殊字符,通常对文本分析的作用不大,删除。删除文本中的指定字符用正则匹配的方式。
清洗前:
#文本内容清洗,清楚特殊符号,用正则表达式
import re
pattern = r"[!\"#$%&'()*+,-./:;<=>?@[\\\]^_^{|}~—!,。?、¥…():【】《》‘’“”\s]+"
re_obj = re.compile(pattern)
#方案A:
def clear(