在本片博客中我们结合之前讲的工具库、sklearn以及pandas,来构建一个简易的情感分析模型。情感分析属于分类任务,即为文本分配情感标签,我们将使用简单的逻辑回归模型来实现这个多分类任务。
目录
1.加载数据
data = pd.read_csv("./data/emotion_data.csv")
print(data.shape)
print(data.head()) #content是推特内容 sentiment是情感
print(data['sentiment'].unique())#不同的情感种类
print(len(data['sentiment'].unique()))#不同的情感种类数量 13分类
2.数据预处理
# 去掉无关列
data = data.drop(['tweet_id','author'],axis=1)
#或data = data.drop(data.columns[[0,2]], axis=1)
print(data.head())
print(data.shape)
#对content字段的所有文本进行分词,去除停用词 提取词干stemmer
import nltk
from nltk import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
fro