一个NLP入门级的完整实验（一）

本文链接：https://blog.csdn.net/qq_38853948/article/details/113567273

一个NLP入门级的完整实验（一）

NLP发展已经很长一段时间了，相比CV，NLP入门要难一些，我相信很多人都像我当初一样，看了很多的算法，公式，模型，一头雾水，看懂了又好似没看懂，模型原理背的滚瓜烂熟，但是做不出来东西，看了别人的源码感觉好像就那么回事，但是复现不出来。

因此，我决定从一个具体的实验角度一步一步的循序渐进，像是写日记一样记录一下我的第一个NLP实验。

实验目的：
任务是NLP中最基本的文本分类任务，这个任务比较成熟，坑也比较少，比较容易实现。目标呢，是做一系列对比实验，探究不同因素之间的影响。

第一组：CNN， LSTM，GRU之间的对比。
第二组：MaxPooling，MeanPooling，Attention之间的对比。
第三组：dropout概率0.5，0.25，0之间的对比。
第四组：是否使用GloVe预训练词向量之间的对比。

你可能一下子就能说出对比的结果，肯定是GRU+Attention，dropout在0.5，并且用GloVe词向量的效果最好，但是这个实验的目的不在于结果，重点是NLP中的各种思想，一个入门级的实验，目的是为了加深NLP的理解。

首先做文本分类的数据集使用Yelp2013的数据集，根据评分做5分类任务。
baseline选2016年《Neural Sentiment Classification with User and Product Attention》里边的结果图：
在这里插入图片描述
框架使用pytorch框架
需要用到的模块有：torch，torchtext，time，numpy，matplotlib，collections
大家可以预先准备好。

按照我的习惯，我喜欢把一个NLP任务分成4个文件，分别是
test.py，data.py，model.py，train.py

很多初学者可能不习惯这种分法，但是我认为，良好的代码结构和编程习惯很多时候决定了一个代码的上限，层次分明的结构在后续修改，和复用的过程，能提供很大的帮助。

在我的结构里：
test.py可以当做是任务的main函数，代码的运行就是在test.py中运行的，用于控制整个流程。
data.py用于存放文本预处理工作的内容，在NLP中，预处理工作占了相当大的一部分，有时候预处理的好坏甚至能直接影响结果，这点和CV有所不同。
model.py顾名思义，是用来存放模型的，这次实验的模型简单，只需要存放GRU，Attention，CNN即可完成全部工作。
train.py是用于存放训练过程的，其实不仅仅是训练过程，还包括预测，结果计算，batch等一系列操作。

当然，如果你认为有更好的结构可以使用你自己喜欢的，如果没有可以参考我这个结构，如果有做过开发的朋友应该对这些比较了解，这个结构的作用其实和软件开发时框架的作用类似。

——————还有后续，待更新，更新后会发在同名专栏里边————————