读论文《Convolutional Neural Networks for Sentence Classification》

最新推荐文章于 2024-08-09 12:53:46 发布

Doit_行之

最新推荐文章于 2024-08-09 12:53:46 发布

阅读量1.5k

点赞数

分类专栏：论文深度学习文章标签：卷积神经网络论文 nlp

本文链接：https://blog.csdn.net/qq_31456593/article/details/77659515

版权

深度学习同时被 2 个专栏收录

33 篇文章 10 订阅

订阅专栏

论文

9 篇文章 0 订阅

订阅专栏

读论文《Convolutional Neural Networks for Sentence Classification》

标签（空格分隔）：论文

文章地址：http://blog.csdn.net/qq_31456593/article/details/77659515

introduce

这篇论文把卷积神经网络用到了句子分类中，算是把卷积神经网络的应用范围扩大到了nlp领域。

作者将句子中的词用word embedding代表，从上到下排列构成了一个矩阵。这个矩阵就相对于句子的语义特征图。然后就可以对这个语义特征图进行卷积。与图像卷积不同，这里的卷积是一个k*h的核，k为word embedding的维度，h是一次卷积覆盖的单词数。然后通过max-overtime pooling 留下主要特征，同时解决了序列变长的问题。
作者同时进行了4种类型的实验：

•CNN-rand：基线模型，其中所有单词在训练期间被随机初始化，然后被修改。
•CNN-static：具有来自word2vec的预训练词嵌入的模型。所有单词-包括随机初始化的未知数-保持静态，只有模型的其他参数被学习。
•CNN-non-static：与上述相同，但预训练的向量对每个任务进行微调。
•CNN-multichannel：具有两组词嵌入的模型。每组向量被视为“通道”，对于这两个通道而言，渐变只能通过其中一个通道进行反向传播。因此，该模型能够微调一组向量，同时保持其他静态。两个通道都用word2vec初始化。

method

卷积网络的模型如下图所示：

其中一个句子中的词语以词嵌入的形式从上到下构成一个句意图，然后用k*h的核进行卷积运算（k为word embedding的维度，h是一次卷积覆盖的单词数）。然后通过max-overtime pooling 留下主要特征，最后将不同特征图的主要特征拼接起来，经过一个全连接层，并用softmax进行分类。

模型中使用了dropout和L2正则化。

最后4组模型和其它方法的比较结果如下：

my view

1、我觉得把句子中的词嵌入组成句义特征图的概念很好，这样可以把原来对图片进行处理的方法，应用到nlp来。
2、卷积的局部视野类似于n-gram，或许句子级语义信息用卷积神经网络来获取并不比循环神经网络差。
3、max-overtime pooling 虽然解决了句子变长问题，但是不是失掉了很多特征。
4、是否可以增加深度。