基于IMDb数据集的情感分析（Doc2Vec模型与神经网络实现）

最新推荐文章于 2020-12-01 18:33:50 发布

zealscott

最新推荐文章于 2020-12-01 18:33:50 发布

阅读量6.8k

点赞数

分类专栏： MachineLearning 神经网络文章标签： IMDb LSTM

本文链接：https://blog.csdn.net/crazy_scott/article/details/80830388

版权

使用Doc2Vec模型参加Kaggle的NLP比赛，最终score达到0.97，前2%。

本文所有的代码都可以在我的github上找到。

在上一篇博文中，我们使用了TF-IDF，准确率达到了0.95，已经进入前100，但还不够，我们试试使用更加高大上的Doc2Vec结合神经网络模型，其准确率能否再次提升。

数据介绍

此部分的JupyterNotebook可参考这里。

对于拿到的电影评论数据，我们需要进行数据清理以后才能使用doc2vec进行向量化。

本文采用pandas库进行数据预处理，好处是可以使用apply函数对其进行并发操作，提高效率。

NLP的数据预处理一般包括以下几个部分：

本项目没有纠正拼写错误（口语化词语太多）、没有去处数字（实测会提高精度）最后将训练集分开（pos和neg）。

此部分的JupyterNotebook可参考这里。

Doc2Vec模型比较复杂，相对于word2vec模型，它可以直接得到每个文档的向量，省略了将词向量转换为段向量的过程。

由于其直接是段向量，因此考虑了词之间的顺序，具有较好的语义信息。

而传统的word2vec模型，使用平均词向量或聚类的方式得到的段向量没有考虑词的顺序。

关注