简介
情感分类属于分类问题的一种,简单来说就是输入一句话,能让机器识别出这句话所属的情感类型。
操作数据
数据准备
案例采用包含Positive和Negative两类的经典数据集IMDB影评数据集。
选取Glove词向量作为Embedding,对自然语言单词进行编码。
数据加载
使用Python的tarfile
库对下载好的IMDB数据集进行读取,并将所有数据和标签分别进行存放。
预训练词向量加载
通过nn.Embedding
层,采用查表的方式,输入单词对应词表中的index,获得对应的表达向量。
数据预处理
一、通过Vocab将所有的Token处理为index id。
二、将文本序列统一长度,不足的使用<pad>
补齐,超出的进行截断。
训练
第一步、读取一个Batch的数据;
第二步、送入网络,进行正向计算和反向传播,更新权重;
第三步、返回loss。
评估
第一步、读取一个Batch的数据;
第二步、送入网络,进行正向计算,获得预测结果;
第三步、计算准确率。