Kaggle电影评论情感分析

最新推荐文章于 2023-01-20 21:19:58 发布

Cirtus

最新推荐文章于 2023-01-20 21:19:58 发布

阅读量2.5k

点赞数 1

分类专栏： NLP学习

本文链接：https://blog.csdn.net/Cirtus/article/details/109320548

版权

1. 导入数据集

import pandas as pd
data_train = pd.read_csv('./train.tsv', sep = '\t')
data_test = pd.read_csv('./test.tsv', sep = '\t')
data_train.head()
data_train.shape

2. 构建语料库

# 提取训练集中的文本内容
train_sentences = data_train['Phrase']

# 提取测试集中的文本内容
test_sentences = data_test['Phrase']

# 构建一个语料库。通过pandas中的contcat函数将训练集和测试集的文本内容合并到一起
sentences = pd.concat([train_sentence, test_sentence])

# 合并的一起的语料库的规模
sentences.shape

# 提取训练集中的情感标签
label = data_train['Sentiment']

# 导入停词库
stop_words = open('./stop_words.txt', encoding = 'utf-8').read().splitlines()

3. 特征工程

词袋模型，TF-IDF模型，word2vec模型进行文

最低0.47元/天解锁文章

Cirtus

关注

1
点赞
踩
24

收藏

觉得还不错? 一键收藏
3
评论
Kaggle电影评论情感分析

目录1. 导入数据集2. 构建语料库3. 特征工程4. 构建分类器算法4.1 多项式朴素贝叶斯分类器4.2 逻辑回归分类器4.3 增加了2个参数的逻辑回归分类器5. 对测试集的数据进行预测6. 按照kaggle比赛官网的要求整理格式疑问kaggle没什么可怕的。简单的算法也很有效，逻辑回归打遍天下。数据预处理和特征工程很重要。Kaggle竞赛网站：https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews1. 导入数据集imp
复制链接

扫一扫