rostcm6情感分析案例分析_情感分析

最新推荐文章于 2024-09-06 23:03:01 发布

weixin_39640687

最新推荐文章于 2024-09-06 23:03:01 发布

阅读量2.5k

点赞数 1

文章标签： rostcm6情感分析案例分析

本文链接：https://blog.csdn.net/weixin_39640687/article/details/111623404

版权

该博客介绍了情感分析的概念，并通过电影《哪吒》的影评数据进行案例分析。数据清洗包括删除空值和去重，文本处理涉及去除标点、分词。使用jieba进行文本向量化，采用词袋模型和TF-IDF调整权重。最后，通过朴素贝叶斯模型进行分类，但模型精准度仅为0.49，高召回率表明多数预测为负面情感。

摘要由CSDN通过智能技术生成

情感分析概念

情感分析是文本分类中最常见的应用场景，就是从一段文本中描述中，理解其感情色彩，是褒义，贬义还是中性。

数据源

数据集未电影《哪吒》的影评数据，包含以下字段：

time: 时间

city：城市

gender：性别。0未知，1男 2女

name：名字

level：登记

score：分数

comment：评论

import numpy as np
import pandas as pd 
comment=pd.read_csv(r"C:Users24977Desktopcomment.csv")
print(comment.shape)

(578760, 7)

一共有578760行数据，7个字段。

数据清洗

我们需要进行评论的处理，先看了下空值，发现不多，直接删除，然后去重。

print(comment.isnull().sum())

time          0
city        226
gender        0
name       2722
level         0
score         0
comment       4
dtype: int64

comment.comment.dropna(inplace=True)
comment.drop_duplicates(inplace=True)

随后对文本内容进行处理。需要首先将一些标点符号去除，用正则匹配

import re 
re_obj=re.compile(r"[!"#@#$%^&*()_+=-><、|【】{}‘’“”""''？?，,。）（——/~·！]")
def clear(text):
    return re_obj.sub("",text)
comment["comment"]=comment["comment"].apply(clear)

然后再对文本进行分词