【论文翻译】2021- 基于卷积神经网络和语义扩展的短文本分类方法


论文链接: A Short Text Classification Method Based on Convolutional Neural Network and Semantic Extension
来源:International Journal of Computational Intelligence Systems(中科院四区)

摘要

为了解决传统短文本分类方法因数据稀疏性和语义特征不足而对短文本分类效果不佳的问题,提出了一种基于卷积神经网络和语义扩展的短文本分类方法。首先,在短文本预处理过程中,我们提出了一种改进的相似度来提高词向量表的覆盖率。其次,提出了一种短文本语义扩展的方法,该方法在神经网络模型中加入了注意机制来寻找短文本中的相关词,分别在短文本的句子层和相关词层进行语义扩展。最后,利用经典的卷积神经网络对短文本进行特征提取。实验结果表明,该方法在短文本分类任务中是可行的,分类效果显著提高。

引言

近年来,以云计算和大数据为代表的新一代信息技术的快速发展,推动了互联网新时代的到来。在互联网给人们生活带来便利的同时,每天也产生大量的文本数据。其中,以评论、微博、问答等形式出现的短文本具有增长迅速、数量巨大的特点。这些短文本通常有明显的局限性:缺乏足够的语境信息,可能存在多义性,有时还有拼写错误。如何快速有效地从海量短文本数据中提取真正有价值的信息,正是自然语言处理领域需要解决的问题,也具有深远的意义。
传统的机器学习文本分类方法如朴素贝叶斯(NB) [1,2],支持向量机(SVM) [3,4],K近邻(KNN) [5,6]和决策树[7]等,经常使用词袋(BOW) [8]模型来表示文本,术语频率-逆文档频率(TF-IDF)来表示词权重。而这些分类方法所使用的BOW模型[9],句子和文档被认为是相互独立的,它们之间没有上下文关系,因此可能无法有效提取文本中的细粒度语义信息,以及BOW模型存在维数灾难、数据稀疏等问题[10]。近年来,随着深度学习的出现,基于深度神经网络的模型越来越受到自然语言处理领域研究者的关注,如递归神经网络(RNN)模型和卷积神经网络(CNN)模型。米科洛夫等人[11]提出了著名的基于RNN的模型,该模型利用RNN来考虑整个句子的表达,该模型可以捕捉长期的依赖关系并学习单词的含义。Kim等人[12]提出了一种多尺度过滤CNN模型来提取更丰富的文本语义特征,并在文本分类任务上取得了良好的效果,从而成为自然语言处理领域最具代表性的模型之一。 Yang等人[13]提出了一种用于文档分类的层次化注意网络,该模型不仅将注意机制应用于文档层次,还应用于单词和句子层次,从而在构建文档表示时能够关注越来越重要的内容。周等人[14]提出了一种基于混合注意机制的中文短文本分类网络模型,该模型不仅考虑了词级文本特征和字符级特征,还通过注意机制提取了与分类相关的语义特征。
然而,如果只使用神经网络模型来提取短文本语义信息的抽象特征,分类效果将在很大程度上取决于神经网络的层数,因此将导致整个模型的参数的数量呈几何级增加,从而显著增加模型的训练时间。因此,为了克服短文本语义信息的不足,可以利用外部知识库来扩展短文本的语义,从而丰富短文本的语义特征。
总之,本文提出了一种基于神经网络和语义扩展的短文本分类方法。在神经网络模型具有一定层数的情况下,提出一种新的方法来寻找短文本中的相关词,同时在短文本的句子层和相关词层进行语义扩展,从而提高短文本的分类效果。
我们的贡献如下:

  • 首先,在文本预处理过程中,我们提出了一种改进的Jaro-Winkler相似度来发现短文本中可能的拼写错误,从而提高预处理词向量表的覆盖率。
  • 其次,我们提出了一种基于注意机制的CNN模型来寻找短文本的相关词,然后利用外部知识库分别对短文本和相关词进行概念化,从而扩展短文本的语义特征。
  • 最后,利用经典的CNN模型提取短文本特征,完成分类过程。

本文的其余部分组织如下。第二节回顾了文本分类的相关工作。第三节介绍了一种短文本预处理方法。在第四节中,我们详细介绍了一种短文本分类方法。第五节进行了广泛的实验。第6节讨论了实验结果。结论是在第7节中得出的。

2 相关工作

在传统的文本分类方法中,在分类过程中通常忽略相应的文本语义特征,无法有效提取文本中的细粒度语义信息,导致最终分类结果的可解释性较低。为了解决这些问题,魏等人[15]提出了基于n图的中文文本分类的文本表示和特征选择策略,在特征选择策略中,类内预处理与类间特征选择相结合。波斯特等人[16]提出使用词性标注和树核技术来提取文本的显性和隐性特征。Gautam等人[17]提出了一元分词技术和语义分析来表示文本的特征。宋等人[18]利用概率知识库对短文本进行概念化,从而提高了文本分类过程中对文本语义的理解。张等人[19]提出了一种基于潜在狄利克雷分配(LDA)主题模型的短文本分类方法,进一步解决了短文本的上下文相关性问题。这些方法虽然可以相对提取丰富的文本特征信息,但也有一定的局限性。
单词嵌入是目前最常用的,也是保留语义和语法信息最有效的单词向量表示。词向量技术最早是由Hinto [20]提出的。Collobert等人[21]首次使用预处理的词向量和CNN技术对文本进行分类,证明了CNN在文本处理中的有效性。Mikolov等人[22]使用神经网络模型来学习一种新的向量表示,称为单词向量或单词嵌入,它包含单词的语法和语义信息。与传统的词袋模型表示相比,词向量具有低维、密集和连续的特点。因此我们还在文本预处理中使用了词向量技术。
近年来,自然语言建模方法一直依靠CNN学习单词嵌入,并取得了可喜的成果。我们的方法还利用CNN自动有效地提取短文本特征。Sotthisophaet等人[23]使用词向量的聚类来寻找语义单元。同时,在文本预处理过程中使用了Jaro-Winkler相似度来查找文本中的拼写错误,但该方法中使用的Jaro-Winkler相似度只考虑了字符串之间常见前缀的匹配程度,忽略了字符串的后缀匹配。张等人[24]提出了一种字符级的CNN文本分类模型(CharCNN),可以获得更细粒度的语义特征,但该模型也忽略了文本中的词级语义特征。

3 短文本处理

本文利用外部语料库和Word2vec技术将短文本训练成一个单词向量表。由于生成的词向量的准确性会影响CNN后续的文本特征提取效果。所以在短文本矢量化过程中,每个单词都要尽可能与单词向量表中的单词匹配。但是由于短文本的特点,有些单词经常拼错,导致后续单词矢量化过程中无法从单词向量表中找到对应的单词,从而忽略了单词可能代表的关键特征。
在文本预处理中,我们利用Jaro-Winkler相似度来查找文本中的拼写错误,并将短文本中的单词与单词向量表中的相似单词进行相似度比较,如果两者部分不同但相似度较高,则意味着短文本中对应的单词可能拼写错误,然后根据单词向量表中的对应单词进行替换。短文本的拼错位置很随意,可能在单词的后半部分,也可能出现在单词的前半部分。然而,Jaro-Winkler距离度量只考虑字符串之间公共前缀的匹配程度,即单词的拼写错误出现在后半部分。但同时也忽略了字符串的后缀匹配,即单词前半部分出现拼写错误。例如,“自变量”和“自变量”只有一个共同的前缀,所以Jaro-Winkler距离不能很好地反映这两个字符串的匹配程度。
基于Jaro-Winkler距离,提出了一种改进的Jaro-Winkler相似度,该相似度同时具有前缀匹配和后缀匹配。定义如下:
在这里插入图片描述
由于短文本单词中的拼写错误在单词的后半部分更常见,因此两个单词的公共前缀匹配被赋予更大的权重,并且相似性结果不得超过1

因此,在短文本的矢量化预处理过程中,对于数据集中未覆盖的词,如果词向量表中对应词之间的匹配字符数未超过一定阈值,则认为这两个词匹配。进一步统计单词向量表中与未覆盖单词匹配的所有单词,分别根据公式(1)计算它们的相似度,最后选择相似度最高且超过最小相似度阈值的单词,然后用相应单词向量表中的单词替换数据集中未覆盖的单词。从上面可以看出,经过这个预处理过程,可以尽快发现数据集中短文本的拼写错误,从而提高Word2vec单词向量表的覆盖率。

4 所提方法

如图1所示,我们提出的短文本分类方法的总体框架由四个主要部分组成。首先,在短文本预处理中,我们使用改进的Jaro-Winkler相似度来发现短文本中可能的拼写错误。其次,通过基于注意机制的CNN模型找到短文本的相关词。再次,利用外部知识库Probase分别对短文本和相关词进行概念化,生成相应的词向量矩阵。最后利用经典的CNN模型提取短文本特征,完成分类过程…
在这里插入图片描述

4.1 找到相关词

在短文本中,通常只有几个词可以代表整个句子的语义,大多数词对短文本的语义特征贡献不大。根据不同单词对分类效果的不同影响,在神经网络模型中加入注意机制,可以使模型在建立当前单词与上下文的关系时,通过注意机制找到上下文中真正影响语义的单词。本文将这些词称为短文本中的相关词
为了找到短文本的相关词,本文设计了一个CNN模型,该模型由一个单一的卷积层和一个带有注意力机制的汇集层组成,如图2所示。
在这里插入图片描述
卷积层由一系列具有可学习参数的滤波器组成。在这一层中,通过改变这些滤波器的参数,这些过滤器可以为特定特征获得更高的激活值。因此,提取更高级的短文本语义特征是可能的。过滤器的宽度固定为m值,与词向量的维数相同,过滤器的高度为h。

4.2 短文本语义扩展

短文本通常缺乏足够的语境信息,有时不遵循自然语言的语法规则,也可能存在多义性。本部分利用外部知识库Probase对短文本进行语义扩展,生成短文本的概念向量,可以有效丰富短文本的语义特征,从而达到短文本语义扩展的目的。
通过扫描Probase知识库,对于每个实例,我们将获得一系列对应的相关概念,然后对实例、概念及其关系进行评分。

通过短文本概念化获得的句子级概念序列关系可以提取更丰富的短文本语义信息。然而,短文本中单词级的概念序列关系也很重要,因为它可以提取更细粒度的文本语义信息。因此,本文在句子层面的短文本概念化的基础上,提出了相关词的概念化

4.3 CNN 短文本分类

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
首先,使用联合词向量矩阵作为卷积层的输入,使用多种高度大小的滤波器进行卷积运算,提取短文本的特征,生成一组特征向量。
在池层,使用Max Pooling,即以某一区域输入的最大值作为该区域的输出。这可以减少网络中的参数数量,也可以有效防止过拟合,提高模型的泛化能力。通过最大池化,可以从特征图中提取固定长度的矢量。具体计算过程如下:

5 实验

数据集
为了验证所提出的短文本分类方法的有效性,我们采用了近年来广泛使用的经典短文本数据集进行文本分类,数据集的基本信息如下

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论

针对传统短文本分类方法严重依赖神经网络层数,且因数据稀疏和语义特征不足而对短文本分类效果不佳的问题,提出一种基于CNN和语义扩展的短文本分类方法。为了提高短文本矢量化过程中预处理词向量表的覆盖率,采用改进的Jaro-Winkler相似度在文本预处理过程中发现短文本中可能存在的拼写错误,从而更准确地匹配语料库中的对应词。同时,面对短文本所能提供的语义信息有限的问题,我们引入外部知识库对短文本和短文本中的相关词进行概念化,扩展短文本的语义。实验结果表明,该方法在短文本分类任务中是可行的,分类效果显著提高。当该分类方法获得短文本相关词,由于涉及大量的词向量距离计算,不可避免的需要研究时间消耗。在接下来的研究中,将考虑时间复杂度,优化获取短文本中相关词的方法,提高短文本的分类效率

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 8
    评论
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值