简述
概括来讲,就是对不同尺度的窗口分别卷积,各尺度分别对不同时刻向量进行max-pooling,经过几层全连接之后进行分类,用word2vec来初始化输入矩阵有明显效果
文章全名:Convolutional Neural Networks for Sentence Classification
网络结构
缺图
从左向右看:
第一层对各词进行向量化,向量化有两种方式:1、取预训练结果 2、随机初始化。从结果来看,取预训练向量结果远远好于随机初始化结果,随机初始化的结果不如当前state-of-art,如果还能在训练过程中,对词向量进行微调,效果还能再好一丁点。
第二层是多尺度窗口卷积层,也是文章的核心,相当于取句子不同阶数的ngram,实验中用了3, 4, 5三个尺度
第三层对每个尺度,只取最大。
最后的全连接层,用了比较激进的正则化方法,来防止过拟合,用高达50%的概率进行dropout
其他
文章还对比了同时两组词向量,但只调节其中一组,改进并不明显
不同尺度如果只留一个pooling结果,可能会有一些信息损失,文章并没有做这方面的对比尝试,但15年的另一篇文章作了对比,发现改成k-max-pooling(k>=3)还不如1-max-pool