https://www.toutiao.com/a6680124799831769603/
基于卷积神经网络的句子分类模型
题目:
Convolutional Neural Networks for Sentence Classification
作者:
Yoon Kim
来源:
To appear in EMNLP 2014
Machine Learning (cs.LG)
Submitted on 25 Aug 2014
文档链接:
arXiv:1408.5882
代码链接:
https://github.com/dennybritz/cnn-text-classification-tf
https://github.com/yoonkim/CNN_sentence
https://github.com/dmlc/gluon-nlp
https://github.com/alexander-rakhlin/CNN-for-Sentence-Classification-in-Keras
https://github.com/inspirehep/magpie
摘要
我们报告了一系列卷积神经网络(CNN)的实验,这些实验是在预训练的单词向量之上训练的,用于句子级分类任务。我们展示了一个简单的CNN,它具有很少的超参数调整和静态向量,可以在多个基准测试中获得出色的结果。通过微调学习任务特定的向量可以进一步提高性能。我们还建议对架构进行简单修改,以允许使用任务特定和静态向量。这里讨论的CNN模型在7个任务中的4个中改进了现有技术,包括情感分析和问题分类。
英文原文
We report on a series of experiments with convolutional neural networks (CNN) trained on top of pre-trained word vectors for sentence-level classification tasks. We show that a simple CNN with little hyperparameter tuning and static vectors achieves excellent results on multiple benchmarks. Learning task-specific vectors through fine-tuning offers further gains in performance. We additionally propose a simple modification to the architecture to allow for the use of both task-specific and static vectors. The CNN models discussed herein improve upon the state of the art on 4 out of 7 tasks, which include sentiment analysis and question classification.
要点
在目前的工作中,我们训练一个简单的CNN,在从一个无监督神经语言模型得到的单词向量的基础上进行一层卷积。Mikolov等人(2013)对这些载体进行了谷歌新闻1000亿字的训练,并对公众开放。我们最初保持向量这个词不变,只学习模型的其他参数。尽管超参数调整很少,但是这个简单的模型在多个基准上都取得了很好的效果,这表明预先训练的向量是通用的特征提取器,可以用于各种分类任务。通过微调学习特定于任务的向量可以得到进一步的改进。最后,我们描述了对体系结构的一个简单修改,允许通过多个通道使用预先训练的和特定于任务的向量。
我们的工作在哲学上与Razavian等人(2014)相似,他们的研究表明,在图像分类方面,通过预先训练的深度学习模型获得的特征提取器在各种任务上都表现良好,包括与训练特征提取器的原始任务非常不同的任务。
图1:用两个通道为一个示例句子建模体系结构。
表1:标记化后数据集的汇总统计信息。c:目标类的数量。l:平均句子长度。N:数据集的大小。| V |:词汇量。|Vpre|:预先训练的单词向量集合中出现的单词数。Test:测试集大小(CV表示没有标准的训练/测试分割,因此使用了10倍CV)。
表2:我们的CNN模型与其他方法的对比结果。RAE:使用来自Wikipedia的预先训练的单词向量的递归自动编码器(Socher et al., 2011)。MV-RNN:带解析树的矩阵-向量递归神经网络(Socher et al., 2012)。RNTN:基于张量特征函数和解析树的递归神经张量网络(Socher et al., 2013)。DCNN: k-max池的动态卷积神经网络(Kalchbrenner et al., 2014)。Paragraph- Vec:基于段落向量的逻辑回归(Le and Mikolov, 2014)。CCAE:带有组合类别语法操作符的组合类别自动编码器(Hermann and Blunsom, 2013)。语句解析器:特定于情感分析的解析器(Dong et al., 2014)。NBSVM, MNB:朴素贝叶斯SVM和多项式朴素贝叶斯与Wang and Manning(2012)的单bigrams。G-Dropout, F-Dropout: Wang and Manning(2013)的高斯Dropout和快速Dropout。tree - crf:带条件随机字段的依赖树(Nakagawa et al., 2010)。CRF-PR:带后验正则化的条件随机场(Yang and Cardie, 2014)。支持向量机(SVM): Silva等人(2011)提出的支持向量机的特征包括单双三角、wh开头疑问词、head单词、POS、解析器、hypernyms和60条手工编码的规则。