概念引入
逻辑回归
线性回归
时间序列分析
神经网络
self-attention与softmax的推导
word2evc
glove
摘要大意
- 在使用简单的CNN模型在预训练词向量的基础上进行微调就可以在文本分类任务上就能得到很好的结果。
- 通过对词向量进行微调而获得的任务指向的词向量就能得到更好的结果。
- 同时也提出了一种即使用静态预训练词向量又使用任务指向词向量的文本分类模型。
- 最终在7个文本分类任务中的四个上都取得了最好的分类准确率。
TextCNN模型的结构
把每个词都映射成一个词向量,然后做一维卷积
正则化手段
Dropout
在神经网络的传播过程中,让某个神经元以一定比例停止工作,在训练另一组数据时又将停止工作的部分启用,按比例选取其他部分停止,从而增加模型的泛化能力。
L2-正则
该模型的超参数
-
Embedding方式(静/动态,glove/word2evc)
-
卷积核大小
- 卷积核个数
-
多种卷积核的混用
-
激活函数 (sigmoid/relu/tanh)
-
Dropout
- L2正则化
研究成果
在7个文本分类任务中的四个上取得了最好的分类效果。
• CNN-rand: 使用随机初始化的词向量
• CNN-static: 使用静态预训练的词向量
• CNN-non-static: 使用微调的预训练的词向量
• CNN-multichannel: 同时使用静态预训练的词向量和微调的预训练的词向量
对于预训练词向量的微调能够改变词对之间的相似度关系