rostcm6情感分析案例分析_情感分析

该博客介绍了情感分析的概念,并通过电影《哪吒》的影评数据进行案例分析。数据清洗包括删除空值和去重,文本处理涉及去除标点、分词。使用jieba进行文本向量化,采用词袋模型和TF-IDF调整权重。最后,通过朴素贝叶斯模型进行分类,但模型精准度仅为0.49,高召回率表明多数预测为负面情感。
摘要由CSDN通过智能技术生成

84ccdb56c2d2d016f3daf8ada45483a9.png

情感分析概念

情感分析是文本分类中最常见的应用场景,就是从一段文本中描述中,理解其感情色彩,是褒义,贬义还是中性。

数据源

数据集未电影《哪吒》的影评数据,包含以下字段:

time: 时间

city:城市

gender:性别。0未知,1男 2女

name:名字

level:登记

score:分数

comment:评论

import numpy as np
import pandas as pd 
comment=pd.read_csv(r"C:Users24977Desktopcomment.csv")
print(comment.shape)

(578760, 7)

一共有578760行数据,7个字段。

数据清洗

我们需要进行评论的处理,先看了下空值,发现不多,直接删除,然后去重。

print(comment.isnull().sum())

time          0
city        226
gender        0
name       2722
level         0
score         0
comment       4
dtype: int64
comment.comment.dropna(inplace=True)
comment.drop_duplicates(inplace=True)

随后对文本内容进行处理。需要首先将一些标点符号去除,用正则匹配

import re 
re_obj=re.compile(r"[!"#@#$%^&*()_+=-><、|【】{}‘’“”""''??,,。)(——/~·!]")
def clear(text):
    return re_obj.sub("",text)
comment["comment"]=comment["comment"].apply(clear)

然后再对文本进行分词

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值