论文:Incorporating Context-Relevant Knowledge into Convolutional Neural Networks for Short Text Classification
来源:AAAI-19
作者:华南理工大学的两位同学
摘要
由于数据的稀疏性,一些文本分类方法不能很好地处理短文本。更重要的是,他们没有充分利用与上下文相关的知识。为了解决这些问题,我们提出了一种神经网络,将上下文相关的知识整合到卷积神经网络中,用于短文本分类。我们的模型由两个模块组成。第一个模块使用两个层分别提取概念特征和上下文特征,然后使用一个注意力层提取与上下文相关的概念。第二个模块利用卷积神经网络从单词和上下文相关的概念特征中提取高级特征。在三个数据集上的实验结果表明,我们提出的模型优于目前最先进的模型。
引言
文本分类是将句子分类成预定义类别的任务,在主题分类、情感分析和语言推理等领域有着广泛的应用。现有的方法大多使用监督机器学习方法来建立分类器,如支持向量机、卷积神经网络(CNN)和递归神经网络(RNN)。
虽然以前的工作取得了很好的性能,但由于数据的稀疏性,它们不能很好地工作在短文本上。另一方面,背景知识在自然语言理解中起着重要作用。随着知识库建设的发展,我们可以利用这些知识库(KBs)将额外的知识整合到神经网络中。此外,知识特征的有用性因上下文而异,因为一般的知识库涉及一词多义。例如,“林肯”这个词可以指一个人或一辆车。将上下文无关的知识整合到神经网络中可能会误导分类结果。
为了解决这些问题,我们提出了一个与上下文相关的概念递归卷积神经网络,称为CCRCNN,它可以将上下文相关的知识整合到标准的卷积神经网络中。更特别的是,我们的模型由两个主要模块组成。一个是较低的子网络:与上下文相关的概念表示模块。该模块利用两个层次分别提取概念特征和上下文特征,然后利用注意层提取与上下文相关的概念。另一个是上层子网络:一个基于上下文概念词嵌入的短文本分类模块。该模块将词嵌入和上下文相关的概念嵌入结合在一起称为CCWE,并将CCWE引入卷积神经网络。
我们的模型
在本文中,我们提出了一种上下文相关的概念递归卷积神经网络,称为CCRCNN,它可以捕获上下文相关的概念特征。我们的模型由两个主要模块组成,详情如下。
上下文相关的概念表示模块
该模块利用两个层次分别提取概念特征和上下文特征,然后利用注意力层提取与上下文相关的概念。
概念表示层
在Probase (Wu et al. 2012)中,知识以(词,概念)对的形式表示,这意味着一个词属于一个概念。我们利用属于同一个概念的词来代表这个概念。也就是说,概念嵌入是词嵌入的加权平均:
上下文表示层
上下文相关的概念表示层
实验
数据集
TREC 该数据集是一个问题数据集,它将句子分为6种问题类型,包括人、位置、数字信息等。
Movie Review(MR) 这个数据集包含10662个句子,每个句子都是对电影的正面或负面评论。
AG 该数据集包含了AG新闻语料库的标题和描述,我们在实验中只使用了每条新闻的标题(Wang et al. 2017)。
baseline
Bow+SVM
CNN
CharCNN
实验细节
在实验中,我们使用300维的word2vec向量对词嵌入进行初始化。我们使用Adadelta来优化训练过程。
结果
结论
在本文中,我们提出了一种神经网络CCRCNN,它首先利用两层分别提取概念和上下文特征,然后利用注意层提取与上下文相关的概念。然后将概念特征整合到卷积神经网络中进行短文本分类。在三个数据集上的实验结果表明,我们提出的模型优于目前最先进的模型。