文章目录
论文链接: A Hybrid Classification Method via Character Embedding in Chinese Short Text With Few Words
来源:IEEE Access
作者:扬州大学、合肥工业大学的几位
承接 HANs
摘要
近几十年来,短文本分类研究取得了重要进展。然而,现有的方法大多只关注Twitter或微博等包含几十个单词的文本,而没有考虑新闻标题或发票名称等单词较少的短文本。同时,目前的短文本分类方法无论是利用外部语料库扩展短文本的特征,还是从所有文本中学习特征表示,都没有充分考虑短文本单词之间的差异。值得注意的是,单词较少的短文本的分类通常是由几个特定的关键词来决定的,这与文档分类或传统的短文本分类不同。针对这些问题,本文提出了一种基于注意机制和特征选择的基于字符嵌入的中文短文本AFC分类方法。具体来说,首先计算字符嵌入来表示字数较少的中文短文本,充分利用没有外部语料库的短文本信息。其次,在该方法中引入基于注意力的LSTM,将数据加权投影到特征表示空间中,使分类中的关键词具有更细微的价值。通过计算内容和类别标签信息之间的语义相似度进行特征选择,减少了冗余信息对分类可能产生的负面影响。在真实数据集上的实验表明,与其他竞争方法相比,我们的方法是有效的。
关键词: 字数少的短文本、字符嵌入、注意机制、特征选择二级目录
1 引言
随着网络服务的快速发展,互联网上产生了越来越多的带极少词的中文短文本,如微博、新闻标题和搜索片段等。极少词的中文短文本与传统中文短文本的主要区别是篇幅极短。极少词的中文短文被认为只包含很少的汉字,例如,一个新闻标题的长度通常要求不超过20个字符。它们通常是所有内容的概述。此外,这些文本的长度极短、特征稀疏、高度模糊等固有特性给文本分类带来了巨大的挑战。中文短词文本处理的迫切需求引起了人们的广泛关注和研究。
然而,现有的短文本分类方法很少注意到汉字较少的短文本。考虑到这些文本的独特性,现有的分类方法很难直接应用于这些文本,主要存在以下问题:首先,极端短的文本长度导致缺乏有意义的分析和有效的分类信息。第二,在中文文本中没有明确的词界,这和两个在英文中两个词之间有空白不同,而汉语分词可能会降低分类性能。此外,由于干扰词的存在,极少词的中文短文本更难识别关键字进行正确分类。因此,超短中文文本分类的效率和有效性给超短中文文本分类的处理带来了很大的挑战。
对于处理短文本分类,现有的方法大致可以分为两大类:基于辅助信息的方法和基于表示学习的方法。基于辅助信息的方法利用Freebase、Probase、DBpedia等外部知识库来扩展短文本的特性。例如,Wang et al.[5]将短文档映射到维基百科概念,用于短文本分类。Li等[6]使用Probase扩展特征空间,引入更多的术语语义上下文来构成数据稀疏性和消除术语歧义。基于表示学习的方法试图通过学习短文本更好的特征表示来提高分类性能,许多研究和方法都是沿着这一思路提出的,如朴素贝叶斯(Naive Bayes, NB)[7]和注意机制[8]。例如,Zhou等人[9]提出了用于中文短文本分类的组合递归神经网络(RNN),它是一种基于长短时记忆(LSTM)的字符级和单词级未来表示的混合模型。Ma等人[10]提出用高斯过程方法学习分布表示,假设短文本是贝叶斯框架中一种分布的特定样本,将短文本分类转换为选择最可能的高斯分布。同时,Yu等[11]提出了一种用于短文本分析分类的开源库工具包,该工具包支持有效的文本预处理和基于表示学习的快速训练/预测过程,作为一种易于使用和可扩展的工具得到了广泛的应用。
在上面的方法中,利用外部知识库,基于辅助信息的方法可以提高分类的性能[12]。但是大部分这类方法都有很多限制,比如需要大量的时间,信息不易得和通信开销很高。因此,该方法很难有效地应用于短文本分类中。另一方面,在基于表示学习的短文本分类方法取得巨大成功的同时,有两个问题阻碍了这些方法在字数较少的中文短文本中的进一步发展。第一