读论文《Convolutional Neural Networks for Sentence Classification》

读论文《Convolutional Neural Networks for Sentence Classification》

标签(空格分隔): 论文


文章地址:http://blog.csdn.net/qq_31456593/article/details/77659515

introduce

这篇论文把卷积神经网络用到了句子分类中,算是把卷积神经网络的应用范围扩大到了nlp领域。

作者将句子中的词用word embedding代表,从上到下排列构成了一个矩阵。这个矩阵就相对于句子的语义特征图。然后就可以对这个语义特征图进行卷积。与图像卷积不同,这里的卷积是一个k*h的核,k为word embedding的维度,h是一次卷积覆盖的单词数。然后通过max-overtime pooling 留下主要特征,同时解决了序列变长的问题。
作者同时进行了4种类型的实验:

•CNN-rand:基线模型,其中所有单词在训练期间被随机初始化,然后被修改。
•CNN-static:具有来自word2vec的预训练词嵌入的模型。所有单词-包括随机初始化的未知数-保持静态,只有模型的其他参数被学习。
•CNN-non-static:与上述相同,但预训练的向量对每个任务进行微调。
•CNN-multichannel:具有两组词嵌入的模型。每组向量被视为“通道”,对于这两个通道而言,渐变只能通过其中一个通道进行反向传播。因此,该模型能够微调一组向量,同时保持其他静态。两个通道都用word2vec初始化。

method

卷积网络的模型如下图所示:

其中一个句子中的词语以词嵌入的形式从上到下构成一个句意图,然后用k*h的核进行卷积运算(k为word embedding的维度,h是一次卷积覆盖的单词数)。然后通过max-overtime pooling 留下主要特征,最后将不同特征图的主要特征拼接起来,经过一个全连接层,并用softmax进行分类。

模型中使用了dropout和L2正则化。

最后4组模型和其它方法的比较结果如下:

my view

1、我觉得把句子中的词嵌入组成句义特征图的概念很好,这样可以把原来对图片进行处理的方法,应用到nlp来。
2、卷积的局部视野类似于n-gram,或许句子级语义信息用卷积神经网络来获取并不比循环神经网络差。
3、max-overtime pooling 虽然解决了句子变长问题,但是不是失掉了很多特征。
4、是否可以增加深度。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值