【干货】--基于Python的文本情感分类

本文介绍了如何使用Python进行文本情感分类,通过加载数据、预处理、构建TF-IDF矩阵,利用朴素贝叶斯和随机森林模型进行训练,并展示了模型的AUC曲线,最后讨论了在大规模文本数据下可能遇到的问题及解决方案。
摘要由CSDN通过智能技术生成

感谢关注天善智能,走好数据之路↑↑↑

欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞定!

本文作者:天善智能社区专家刘顺祥

天善智能社区地址:https://www.hellobi.com/


前言

在上一期《【干货】--手把手教你完成文本情感分类》中我们使用了R语言对酒店评论数据做了情感分类,基于网友的需求,这里再使用Python做一下复现。关于步骤、理论部分这里就不再赘述了,感兴趣的可以前往上面提到的文章查看。下面给出Python的具体代码。

Python代码

# 导入第三包

import jieba

from sklearn.feature_extraction.text importTfidfVectorizer

from sklearn.naive_bayes import GaussianNB

from sklearn.ensemble importRandomForestClassifier

from sklearn.cross_validation importtrain_test_split

from sklearn importmetrics

import pandas as pd

import matplotlib.pyplot as plt

# 读入评论数据

evaluation = pd.read_excel('Hotel Evaluation.xlsx',sheetname=1)

# 展示数据前5行

evaluation.head()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值