Kaggle上有两个情感分析的任务,这是其中的一个Bag of Words Meets Bags of Popcorn。任务虽然已经结束了,但是还有点研究的意义。
https://www.kaggle.com/c/word2vec-nlp-tutorial/data
这是一个炫耀Word2vec能力的竞赛,但是偏偏有人就是不用word2vec。
这个Blog写了用简单的TDF 作为Feature,然后用简单的M-Bayesian方法来进行分类。http://nbviewer.ipython.org/github/jmsteinw/Notebooks/blob/master/NLP_Movies.ipynb
1 测试加载数据
test1.py
基本拷贝了该Blog的代码,20个CrossValidation的正确率是0.949631168。
2 写一个基于LSTM的模型
将文章转换为一个word sequence,然后将每个word映射为一个向量,在上面直接用LSTM来做Classification。
1_mr_lstm.py
只是用LSTM最后一个的输出:
(‘Train ‘, 0.31977043441405351, ‘Valid ‘, 0.40485674490569001)
2_mr_lstm.py
用LSTM输出sequence的mean: