机器学习 -11 XX评论情感分析 jieba

在别人的基础上测试执行,并写下详细步骤:
项目背景
公司活动,新闻,微博,影评,商品评价等,看看是支持的多,还是反对的多。如此大量的评论数据,如果人工审核比较麻烦、耗费时间,因此通过程序建立模型代替人工审看,分析积极成分多还是消极成分多。 数据量1.5万多 。

import pandas as pd
import numpy as np
import jieba
import re
from sklearn.feature_extraction.text import TfidfVectorizer


# 加载数据集
f = open("emotion_analysis_movie.csv","r",encoding="utf-8")
data = pd.read_csv(f)
print(data.head())

# 数据预处理
#   数据清洗
#     缺失值
data.isnull().sum(axis=0)
#     异常值探索
data['label'].value_counts()
#     重复值探索
data.duplicated().sum()
data.drop_duplicates(inplace=True)

#   数据转换
# 将label与comment列转换为数值类型。
data['label'] = data['label'].map({'pos':1,'neg':0})
data['label'].value_counts()

# 结巴分词
def get_stopword():
    # 默认情况下,在读取文件时,双引号会被解析为特殊的引用符号。
    # 双引号中的内容会正确解析,但是双引号不会解析为文本内容。
    # 在这种情况下,如果文本中仅含有一个双引号,会产生解析错误。
    # 如果需要将双引号作为普通的字符解析,将quoting参数设置为3。
    f2 = open(r"stopword.txt", "r", encoding="utf-8")
    stopword = pd.read_csv(f2, header=None, quoting=3, sep="a")
    # header=None:csv文件的第一行被作为数据看待
    # sep="a":因
  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值