机器学习 -11 XX评论情感分析 jieba

最新推荐文章于 2023-10-12 11:05:13 发布

sj1565

最新推荐文章于 2023-10-12 11:05:13 发布

阅读量670

点赞数

分类专栏：代码文章标签： nlp 情感分析

本文链接：https://blog.csdn.net/sj1565/article/details/90709034

版权

在别人的基础上测试执行，并写下详细步骤：
项目背景
公司活动，新闻，微博，影评，商品评价等，看看是支持的多，还是反对的多。如此大量的评论数据，如果人工审核比较麻烦、耗费时间，因此通过程序建立模型代替人工审看，分析积极成分多还是消极成分多。数据量1.5万多。

import pandas as pd
import numpy as np
import jieba
import re
from sklearn.feature_extraction.text import TfidfVectorizer


# 加载数据集
f = open("emotion_analysis_movie.csv","r",encoding="utf-8")
data = pd.read_csv(f)
print(data.head())

# 数据预处理
#   数据清洗
#     缺失值
data.isnull().sum(axis=0)
#     异常值探索
data['label'].value_counts()
#     重复值探索
data.duplicated().sum()
data.drop_duplicates(inplace=True)

#   数据转换
# 将label与comment列转换为数值类型。
data['label'] = data['label'].map({'pos':1,'neg':0})
data['label'].value_counts()

# 结巴分词
def get_stopword():
    # 默认情况下，在读取文件时，双引号会被解析为特殊的引用符号。
    # 双引号中的内容会正确解析，但是双引号不会解析为文本内容。
    # 在这种情况下，如果文本中仅含有一个双引号，会产生解析错误。
    # 如果需要将双引号作为普通的字符解析，将quoting参数设置为3。
    f2 = open(r"stopword.txt", "r", encoding="utf-8")
    stopword = pd.read_csv(f2, header=None, quoting=3, sep="a")
    # header=None:csv文件的第一行被作为数据看待
    # sep="a"：因

最低0.47元/天解锁文章

sj1565

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
机器学习 -11 XX评论情感分析 jieba

XX评论情感分析项目背景公司活动，新闻，微博，影评，商品评价等，看看是支持的多，还是反对的多。如此大量的评论数据，如果人工审核比较麻烦、耗费时间，因此通过程序建立模型代替人工审看，分析积极成分多还是消极成分多。数据量1.5万多。import pandas as pdimport numpy as npimport jiebaimport refrom sklearn.featur...
复制链接

扫一扫