前言:
如果需要对基础概念不了解,可以参考这里。我汇总了论文中涉及的大部分概念,以便更好的理解论文。
目录
NLP十大Baseline论文简述(一) - Word2vec
NLP十大Baseline论文简述(五) - chartextcnn
NLP十大Baseline论文简述(六) -fasttext
NLP十大Baseline论文简述(七) - deep_nmt
NLP十大Baseline论文简述(八) - attention_nmt
NLP十大Baseline论文简述(九) - han_attention
1. Paper:
Character-Level Convolutional Networks for Text Classification
使用字符级别的卷积神经网络来做文本分类任务
2. 背景介绍
- 文本分类是自然语言处理的基础任务之一,目前大多数文本分类任务都是基于词的。
- 卷积神经网络能够成功提取出原始信息中心的特征,如图像和声音,于是本文在字符级别的数据上使用卷积神经网络来提取特征。
- 在文本中使用卷积神经网络已经很常见了,而且使用字符级别的特征来提高自然语言处理任务的性能也有很多研究。
- 本文首次使用纯字符级别的卷积神经网络,我们发现我们的卷积神经网络不需要单词级别的信息就能够在大规模语料上得到很好的结果。
3. 论文摘要
This article offers an empirical exploration on the use of character-level convolu-tional networks (ConvNets) for text classification. 本文对使用字符级卷积网络(ConvNets)进行文本分类进行了实证研究。
We constructed several large-scale datasets to show that character-level convolutional networks could achievestate-of-the-art or competitive results. 我们构建了几个大规模的数据集,以表明字符级卷积网络可以达到最先进的或有竞争力的结果。
Comparisons are offered against traditionalmodels such as bag of words, n-grams and their TFIDF variants, and deep learningmodels such as word-based ConvNets and recurrent neural networks.
对比了传统模型如词袋、n-grams及其TFIDF变体,以及深度学习模型如基于词的ConvNets和递归神经网络。
4. 研究成果
- 构造了几个大的文本分类数据集,这些数据集成为了文本分类最常用的一些数据集
- 提出的CharTextCNN模型在多个数据集上能够获得最好的或者非常有竞争力的结果。
4. 研究意义
C2W历史意义
- 构建了多个文本分类数据集,极大的推动了文本分类的研究工作
- 提出的CharTextCNN方法应为只使用字符信息,所以可以用于多种语言中。
5. CharTextCNN模型优缺点
缺点:
- 字符级别的文本长度特别长,不利于处理长文本的分类
- 只使用字符级别信息,所以模型学习到的语义方便的信息较少
- 在小语料上效果较差
优点:
- 模型结构简单,并且在大语料上效果较好
- 可以用于各种语言,不需要做分词处理
- 在噪音比较多的文本上表现较好,因为基本不存在OOV问题
6. 论文总结
关键点:
- 卷积神经网络能够有效的提取关键的特征
- 字符级别的特征对于自然语言处理的有效性
- CharTextCNN模型
创新点
- 提出了一种新的文本分类模型—CharTextCNN
- 提出了多个的大规模的文本分类数据集
- 在多个文本分类数据集上取得最好或者非常有竞争力的结果
启发点
- 基于卷积神经网络的文本分类不需要语言的语法和语义结构的知识
- 实验结果告诉我们没有一个机器学习模型能够在各种数据集上都能表现的最好
- 本文从实验的角度分析了字符级别卷积神经网络在文本分类任务上的适用性