Convolutional Neural Networks for Sentence Classification

最新推荐文章于 2022-10-13 22:41:55 发布

我爱写报告

最新推荐文章于 2022-10-13 22:41:55 发布

阅读量669

点赞数 1

分类专栏：论文笔记

论文笔记专栏收录该内容

49 篇文章 10 订阅

订阅专栏

Convolutional Neural Networks for Sentence Classification
Yoon Kim
New York University

模型结构

我们利用一层卷积神经网络和事先训练好的词向量进行句子分类，取得了很好的效果。而通过微调来学习针对特定任务的词向量提高了原有的效果。最后，我们描述了对模型结构的一个简单的改动，使得预训练和特定任务的词向量通过不同通道被利用。
上图是我们模型的结构图。模型输入一个 $\times k$ 的矩阵，其中 $n$ 代表句子长度， $k$ 是词向量维度。在必要时进行填充。卷积操作的filter是 $\times k$ 的，也就是利用一个 $h$ 个词的窗来生成新特征（feature map）。然后对于每个feature map使用最大池化。这一步能够很自然地处理可变的句子长度。模型利用多个有不同大小的窗的filter来进行卷积和池化，池化的结果被传到一个全连接softmax层，这一层的输出是标签的概率分布。

正则化

对于正则化，我们在倒数第二层利用dropout，并对权重向量引入l2正则。Dropout通过在前向传播时将隐藏单元按概率“丢掉”来实现（随机遮罩），并且梯度仅在没有被遮罩的单元进行后向传播。也就是说，对于原来的 $\cdot z + b$ ，将其替换为 $\cdot (z \circ r) + b$ ，其中 $\circ$ 是按位乘， $r$ 是一个伯努利随机变量，以概率 $p$ 取值1，最后进行预测时的权重向量 $\hat{w} = pw$ 。对于l2正则，当一个梯度下降步骤后 $w$ 的l2范式大于 $s$ 时，我们把 $w$ 缩放为它的l2范式等于 $s$ 。