文章目录
论文链接: A Hybrid Classification Method via Character Embedding in Chinese Short Text With Few Words
来源:IEEE Access
作者:扬州大学、合肥工业大学的几位
承接 HANs
摘要
近几十年来,短文本分类研究取得了重要进展。然而,现有的方法大多只关注Twitter或微博等包含几十个单词的文本,而没有考虑新闻标题或发票名称等单词较少的短文本。同时,目前的短文本分类方法无论是利用外部语料库扩展短文本的特征,还是从所有文本中学习特征表示,都没有充分考虑短文本单词之间的差异。值得注意的是,单词较少的短文本的分类通常是由几个特定的关键词来决定的,这与文档分类或传统的短文本分类不同。针对这些问题,本文提出了一种基于注意机制和特征选择的基于字符嵌入的中文短文本AFC分类方法。具体来说,首先计算字符嵌入来表示字数较少的中文短文本,充分利用没有外部语料库的短文本信息。其次,在该方法中引入基于注意力的LSTM,将数据加权投影到特征表示空间中,使分类中的关键词具有更细微的价值。通过计算内容和类别标签信息之间的语义相似度进行特征选择,减少了冗余信息对分类可能产生的负面影响。在真实数据集上的实验表明,与其他竞争方法相比,我们的方法是有效的。
关键词: 字数少的短文本、字符嵌入、注意机制、特征选择二级目录
1 引言
随着网络服务的快速发展,互联网上产生了越来越多的带极少词的中文短文本,如微博、新闻标题和搜索片段等。极少词的中文短文本与传统中文短文本的主要区别是篇幅极短。极少词的中文短文被认为只包含很少的汉字,例如,一个新闻标题的长度通常要求不超过20个字符。它们通常是所有内容的概述。此外,这些文本的长度极短、特征稀疏、高度模糊等固有特性给文本分类带来了巨大的挑战。中文短词文本处理的迫切需求引起了人们的广泛关注和研究。
然而,现有的短文本分类方法很少注意到汉字较少的短文本。考虑到这些文本的独特性,现有的分类方法很难直接应用于这些文本,主要存在以下问题:首先,极端短的文本长度导致缺乏有意义的分析和有效的分类信息。第二,在中文文本中没有明确的词界,这和两个在英文中两个词之间有空白不同,而汉语分词可能会降低分类性能。此外,由于干扰词的存在,极少词的中文短文本更难识别关键字进行正确分类。因此,超短中文文本分类的效率和有效性给超短中文文本分类的处理带来了很大的挑战。
对于处理短文本分类,现有的方法大致可以分为两大类:基于辅助信息的方法和基于表示学习的方法。基于辅助信息的方法利用Freebase、Probase、DBpedia等外部知识库来扩展短文本的特性。例如,Wang et al.[5]将短文档映射到维基百科概念,用于短文本分类。Li等[6]使用Probase扩展特征空间,引入更多的术语语义上下文来构成数据稀疏性和消除术语歧义。基于表示学习的方法试图通过学习短文本更好的特征表示来提高分类性能,许多研究和方法都是沿着这一思路提出的,如朴素贝叶斯(Naive Bayes, NB)[7]和注意机制[8]。例如,Zhou等人[9]提出了用于中文短文本分类的组合递归神经网络(RNN),它是一种基于长短时记忆(LSTM)的字符级和单词级未来表示的混合模型。Ma等人[10]提出用高斯过程方法学习分布表示,假设短文本是贝叶斯框架中一种分布的特定样本,将短文本分类转换为选择最可能的高斯分布。同时,Yu等[11]提出了一种用于短文本分析分类的开源库工具包,该工具包支持有效的文本预处理和基于表示学习的快速训练/预测过程,作为一种易于使用和可扩展的工具得到了广泛的应用。
在上面的方法中,利用外部知识库,基于辅助信息的方法可以提高分类的性能[12]。但是大部分这类方法都有很多限制,比如需要大量的时间,信息不易得和通信开销很高。因此,该方法很难有效地应用于短文本分类中。另一方面,在基于表示学习的短文本分类方法取得巨大成功的同时,有两个问题阻碍了这些方法在字数较少的中文短文本中的进一步发展。第一个问题是关键字的识别。 字少的中文文本,由于篇幅极短,关键字也很少,甚至只有一个,而文本的类别通常由这个关键字决定。第二个问题是带极少词的中文短文本的特征表示,中文不规范的表征,中文分词和干扰词的存在,都可能导致语义歧义和误分类。
对于第一个问题,采用注意机制和特征选择来识别关键词。利用基于注意的LSTM对每个单词进行加权,以聚焦与句子意义相近的单词。将查询向量和键值向量映射到一个输出向量,为每个单词分配权值,将重要信息分配给一个较大的权值,将无助于分类的特征分配给一个较小的权值。此外,利用特征选择来保留名词、动词和形容词等比其他功能词包含更多信息的实词,从而减少一些冗余信息可能带来的负面影响。这样,短文本中的关键词就可以被识别出来进行分类。
第二个问题采用中文字符嵌入和特征选择进行表示学习。字符嵌入避免了分词产生的错误,充分利用了有意义的汉字信息。同时,计算文本与类标签信息之间的语义相似度,进行特征选择,对结果进行排序,最后几个字符作为干扰词剔除。由于特征选择是从原始数据集中提取特征子集以降低算法时间复杂度的过程,因此可以有效识别关键词,提高分类精度[13]。
综上所述,我们将注意机制和通过字符嵌入的特征选择相结合,对极少词的中文短文本(简称AFC)进行分类。首先计算中文字符嵌入向量作为文本表示,然后利用注意机制为每个单词分配不同的权重,对分类有用的权重越大,对分类无用的权重越小。同时,计算文本和类标签信息之间的语义相似度,对所有单词进行排序,删除列表中最后一个单词进行特征选择。然后,根据特征选择对加权向量进行对齐。本文的主要贡献总结如下:
- 利用中文字符嵌入进行表征学习,克服了分词的不足,充分利用了字符的重要信息。
- 利用注意机制对文本的特征进行加权,进一步削弱噪声,提高关键词在分类中的影响。
- 利用特征选择来减少不相关信息的影响,对齐句子向量进行文本分类。
- 在三个真实数据集上的综合实验表明,我们的方法优于目前最先进的模型,并评价了我们的方法的有效性。
2 相关工作
短文本分类在自然语言处理(NLP)的许多应用中起着至关重要的作用,为文档管理提供了良好的服务。它的目标是处理非常短的文本,通常不超过100个字符,如博客内容,在线评论,新闻标题等。摘要由于短文本的稀疏性、噪声和非标准性,传统的文本分类方法往往达不到令人满意的效果。近年来,短文本分类受到多学科的关注。在本节中,我们综述了短文本分类的相关工作,包括基于表示学习的方法,基于特征选择的方法和基于注意的方法。
基于表示学习的方法
文本的特征表示学习是短文本分类的基本问题,这是本质上[14]中的深度学习方法背后的主要直觉。Mikolov等人提出了Word2vec语言模型[15],这是一种基于神经网络的词汇分布式表示。Peters等人提出了基于语言模型的嵌入(ELMo)[16],这是一种新型的深度语境化的词语表征,该模型既解决了词语使用的不同特征的挑战,也解决了跨语言语境的不同词语含义的挑战。从双向LSTM中提取向量,并在大规模语料库上用耦合的语言模型目标进行训练。Devlin等人提出了一种名为transformer (BERT)[17]的双向编码器表示的语言表示模型,利用掩码语言模型和下一句预测来预训练深度双向变压器和文本对表示。虽然上述模型可以获得更好的词的表示向量,但在小数据尺度下很难达到满意的效果,难以直接应用于词数较少的中文短文本。
与英语文本不同的是,中文文本是由字符序列而不是词序列组成的,词并不是一个没有争论的自然概念。因此,近年来在汉语自然语言处理任务中引入汉字嵌入的研究已经有了一定的进展。例如,Zhao[18]初步研究了利用汉字依赖的可能性,结果表明汉字层次依赖是一种很好的替代词边界表示的方法。Zhang等人开发了一种基于字符的句法分析模型,该模型可以为中文自然语言处理生成字符级成分树,证明了字符级信息在中文句法分析中的重要性和有效性。Sun等人[20]提出了一种利用词根学习汉字嵌入的方法,并将其应用于汉字相似度判断和汉语分词。Li等人提出了一种字符级神经依赖解析器和汉字级依赖树库,表明汉字嵌入对NLP任务性能有重要作用。然而,以往的汉字嵌入方法大多将词级和字级特征结合在一起进行自然语言处理任务,仅通过汉字嵌入对汉字较少的中文短文本进行分类是一个挑战。在基于注意机制的方法在自然语言处理[22]等许多领域取得了巨大成功的同时,也有越来越多的研究者致力于开发基于注意的方法对短文本[23]、[24]进行分类。Li等人提出了[25]两级注意网络来识别短文本的情绪,注意机制同时捕获局部和远程依赖特征,然后利用基于注意的特征捕获更多相关特征。Hu等人提出了[26]一种用于半监督短文本分类的异构图神经网络。该方法利用节点级和类型级的双重注意机制,学习相邻节点和不同类型节点对当前节点的重要性。同时,自注意机制已成功应用于许多NLP任务中,Wang等人[27]提出了一种将卷积神经网络(CNN)与多尺度特征注意紧密连接的方法,该方法可以产生可变的n-gram特征,自适应选择多尺度特征进行短文本分类。Li等人提出了一种字符级神经依赖解析器和汉字级依赖树库,表明汉字嵌入对NLP任务性能有重要作用。然而,以往的汉字嵌入方法大多将词级和字级特征结合在一起进行自然语言处理任务,仅通过汉字嵌入对汉字较少的中文短文本进行分类是一个挑战。
基于注意力机制的方法
在基于注意机制的方法在自然语言处理[22]等许多领域取得了巨大成功的同时,也有越来越多的研究者致力于开发基于注意的方法对短文本[23]、[24]进行分类。Li等人提出了[25]两级注意网络来识别短文本的情绪,注意机制同时捕获局部和远程依赖特征,然后利用基于注意的特征捕获更多相关特征。Hu等人提出了[26]一种用于半监督短文本分类的异构图神经网络。该方法利用节点级和类型级的双重注意机制,学习相邻节点和不同类型节点对当前节点的重要性。同时,自注意机制已成功应用于许多NLP任务中,Wang等人[27]提出了一种将卷积神经网络(CNN)与多尺度特征注意紧密连接的方法,该方法可以产生可变的n-gram特征,自适应选择多尺度特征进行短文本分类。
近年来,由于中文文本的特殊性质,人们为解决中文短文本分类问题做出了许多努力。例如,Zhou等人提出了[28]一种用于中文短文本分类的混合注意网络,利用词级和字符级特征捕捉类相关注意表征,提高分类性能。Lu等人提出了[29]一种关注与集成学习的多表示混合模型用于中文新闻标题分类。然而,针对平均长度通常小于20个字符的新闻标题等词少的中文短文本的分类问题,目前的分类方法还很少。极短的长度,没有明确的词界和关键字的识别仍然是分类的巨大挑战。
基于特征选择的方法
特征选择的目的是准备更清晰易懂的数据,建立更简单易懂的模型,提高数据挖掘和机器学习[30]的性能。沿着这条思路,许多工作扩展了具有外部知识的基本特征选择,或者只是优化了自然语言处理任务中的特征表示。在特征表示优化方法中,考虑到像Probase这样的外部知识库,Liu等人提出了[13]一种基于词性特征选择方法
在短文本分类中,特征选择已经被证明是一种有效的数据处理方法。孟等人提出了[32]一种特征选择方法来解决短文本分类的稀疏性问题,它考虑了具有相同重要性的单词的短文本的数量,增加了不同短文本特征向量之间的交集。Tommasel等人提出的[33]是一种针对社交媒体的在线短文本特征选择方法,其重点在于发现新文章、已知文章及其通讯作者之间的隐式关系,从而在短文本流的情况下识别与社会相关的文章群体。liu等采用[34]四种不同的特征选择算法来解决多类情感分类问题,实验结果表明,特征选择是一种提高分类精度的有效方法,而特征越多不一定能得到更好的结果。
3 提出的方法
我们提出的AFC的整体框架如图1所示。该方法包含三个部分:中文字符嵌入、注意力机制和特征选择。我们提出的方法的动机和细节如下。
动机
极少词中文短文本是指相对于传统的普通短文本甚至是短文本而言,篇幅较短的中文短文本。例如,中文新闻标题的长度通常要求不超过20个字符(如:Intel: no worries about talent backup),中文发票名称的平均长度也在20个字符左右。同时,这些文字不多的中文短文通常是对所有内容的概括,如标题是新闻的摘要,发票名称是账单的概括。然而,与短文本分类相比,近几十年来,汉语短文本词数较少,引起的关注远远不够
由于中文文本长度极短,单词较少,导致特征表示学习和关键词识别的困难。更具体地说,首先,与英语等西方语言不同,汉语句子不是由词序列组成,而是由字符序列组成,汉语单词之间没有分隔符。由于汉字嵌入已经被证明是一种有效的表示方法,并且中文文本的长度非常短,单词很少,因此我们提出单独学习字符嵌入,这是我们提出的方法与[9],[28]方法的不同之处。其次,在我们的任务中,极短的长度和很少的中文单词意味着关键字识别的重要性,而文本分类通常是由一个关键字决定的。该方法所包含的注意机制是给与句子意义语义关系更密切的词赋予更多的权重。
最后,在字数较少的中文文本中,应用特征选择方法去除无意义和干扰的特征,提高特征向量的质量,有助于关键字的识别。由于保留了概念词和语义相似度计算,特征选择方法减少了一些干扰词和冗余信息可能带来的负面影响,这是我们提出的方法与[9]、[28]方法的主要区别。
字符嵌入表示
汉语文本中每个字的意思都与英语不同,汉语句子中没有明确的词界。传统的特征表示学习方法是建立中文分词,分词结果作为学习模型[35]的输入。尽管分词导致的错误可能会对性能造成影响,但词嵌入已被证明是有效的中文自然语言处理任务,如命名实体识别(NER)[36]。另一方面,字符嵌入表示已被用于自然语言处理任务,如单词相关度计算[37],词性标记[38]和短文本分类[28]。此外,Yin等人[39]证明了字符包含丰富的信息,可以有效地应用于单词相似度计算和类比推理,该方法表明字符特征能够表示单词的语义,显著提高了性能。因此,这些字符嵌入方法在中文自然语言处理任务[40]、[41]中都取得了良好的性能。
然而,中文少词短文本中的新闻标题、发票名称等特征信息与文档甚至短文本相比都要少得多,词语嵌入在语义表达和减少稀疏性方面的效果有限。另外,由于中文文本是连续的字符序列,所以在分词时可能会出现上述的错误。因此,我们引入了基于word2vec[15]的字符嵌入来进行特征表示学习。word2vec工具的目的是将文本中的每个汉字映射到一个向量。由于中文短文本的字数非常少,所以在word2vec工具中我们将window parameter的值设为1,即我们只考虑一个字符左右。
注意力机制
在字符嵌入表示的基础上,我们为不同的嵌入向量分配不同的权重,以观察并不是所有的单词对分类的贡献是相等的。注意机制的目的是关注与短文本意义有更密切语义关系的词。该方法利用基于注意力的LSTM将向量加权映射到特征空间中,使分类中的关键词具有更细微的价值。
短文本特征选择
特征选择是从原始特征集中去除无意义和干扰的特征以提高性能的过程,它通过提取最具代表性的特征子集[33],大大提高了文本的分类精度。由于并不是所有的词对分类都有积极的作用,特别是在词汇较少的中文短文本中,我们采用保留实词和计算语义相似度的方法来提高特征向量的质量,帮助识别关键词。与传统的用于文本处理的特征选择方法不同,我们提出在字数较少的中文短文本中选择特征的步骤如下:
首先,我们观察到名词、动词、形容词等实词比其他虚词包含了更多的信息,而虚词只起到使整个句子流畅、完整[13]的作用。因此,我们建议在每个文本中只保留名词、动词和形容词,其中词性标记是用Jieba Python库实现的。
其次,由于干扰词和词的存在歧义产生困难的理解语言和导致不满意的性能,我们应用词嵌入基于word2vec每个词之间的语义相似度计算短类标签信息,然后结果是排序,最后一个词是移除。具体来说,当句子长度增加5时,我们将添加一个被删除的单词,当句子长度小于5时,不删除任何单词。特征选择的过程如图2所示:
实验
在本节中,我们将进行大量的实验来评估我们所提出方法的有效性。我们的实验使用了三个真实的中文短文本数据集,其中两个是中文新闻标题数据集,即THUCNews数据集和今日头条数据集,其余的一个是中文发票数据集。
接下来,我们首先介绍了detailsofdatasets。其次,详细介绍了基准测试方法和实验设置。在此基础上,给出了基于AFC和其他竞争方法的分类结果。最后,利用一定的数据集对AFC的特性进行了分析。
数据集
对比模型
- Bigrams + LR/SVM
- LibShortText
- TextGrocery
- Character enhanced word embedding model (CWE):以字符为基本单位,根据单词的内部结构学习嵌入。提出了一种多原型字符嵌入和有效的选词方法。
- C-RNN
- HANs
实验设置
实验结果
AFC特性分析
结论
本文提出了一种基于特征选择与注意网络相结合的中文短文本分类方法——AFC。通过引入汉字嵌入、注意机制和特征选择等方法,改进了以往的分类方法。在我们提出的方法中,计算字符嵌入表示,基于注意力的LSTM网络利用每个词的权重进行关键词识别和特征选择,以减少冗余信息可能带来的负面影响。该混合模型能够较好地表达中文短文本的特征。在三个真实数据集上进行的大量实验表明,该方法的有效性优于其他方法。
同时,实验结果表明,本文所提出的方法可以在单词较少的中文短文本上取得较好的效果,但当中文短文本的单词数在数到几十个时,其性能可能不太令人满意。在今后的工作中,我们将努力提高中文短文本的分类精度。