自然语言处理 | (6) 基于英文文本的简易情感分析

在本片博客中我们结合之前讲的工具库、sklearn以及pandas,来构建一个简易的情感分析模型。情感分析属于分类任务,即为文本分配情感标签,我们将使用简单的逻辑回归模型来实现这个多分类任务。

目录

1.加载数据

2.数据预处理

3.模型训练


完整代码

1.加载数据

data = pd.read_csv("./data/emotion_data.csv")
print(data.shape)
print(data.head()) #content是推特内容 sentiment是情感
print(data['sentiment'].unique())#不同的情感种类
print(len(data['sentiment'].unique()))#不同的情感种类数量  13分类

2.数据预处理

# 去掉无关列
data = data.drop(['tweet_id','author'],axis=1) 
#或data = data.drop(data.columns[[0,2]], axis=1)
print(data.head())
print(data.shape)

#对content字段的所有文本进行分词,去除停用词 提取词干stemmer
import nltk
from nltk import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
fro
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值