目录
- kaggle没什么可怕的。
- 简单的算法也很有效,逻辑回归打遍天下。
- 数据预处理和特征工程很重要。
Kaggle竞赛网站:
https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews
1. 导入数据集
import pandas as pd
data_train = pd.read_csv('./train.tsv', sep = '\t')
data_test = pd.read_csv('./test.tsv', sep = '\t')
data_train.head()
data_train.shape
2. 构建语料库
# 提取训练集中的文本内容
train_sentences = data_train['Phrase']
# 提取测试集中的文本内容
test_sentences = data_test['Phrase']
# 构建一个语料库。通过pandas中的contcat函数将训练集和测试集的文本内容合并到一起
sentences = pd.concat([train_sentence, test_sentence])
# 合并的一起的语料库的规模
sentences.shape
# 提取训练集中的情感标签
label = data_train['Sentiment']
# 导入停词库
stop_words = open('./stop_words.txt', encoding = 'utf-8').read().splitlines()
3. 特征工程
词袋模型,TF-IDF模型,word2vec模型进行文