Kaggle电影评论情感分析


  • kaggle没什么可怕的。
  • 简单的算法也很有效,逻辑回归打遍天下。
  • 数据预处理和特征工程很重要。

Kaggle竞赛网站:
https://www.kaggle.com/c/sentiment-analysis-on-movie-reviews

1. 导入数据集

import pandas as pd
data_train = pd.read_csv('./train.tsv', sep = '\t')
data_test = pd.read_csv('./test.tsv', sep = '\t')
data_train.head()
data_train.shape

2. 构建语料库

# 提取训练集中的文本内容
train_sentences = data_train['Phrase']

# 提取测试集中的文本内容
test_sentences = data_test['Phrase']

# 构建一个语料库。通过pandas中的contcat函数将训练集和测试集的文本内容合并到一起
sentences = pd.concat([train_sentence, test_sentence])

# 合并的一起的语料库的规模
sentences.shape
# 提取训练集中的情感标签
label = data_train['Sentiment']

# 导入停词库
stop_words = open('./stop_words.txt', encoding = 'utf-8').read().splitlines()

3. 特征工程

词袋模型,TF-IDF模型,word2vec模型进行文

  • 1
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值