论文链接: Short Text Classification: A survey
作者:哈尔滨工业大学深圳研究生院深圳市互联网信息协作重点实验室
摘要
随着电子商务和网络传播的迅猛发展,短文本作为一种新的文本类型在许多领域得到了广泛的应用。很多研究都集中在短文本挖掘上。由于短文本具有稀疏性、大尺度、即时性、非规范性等特点,对其进行分类是一项挑战。传统的方法难以处理短文本分类,主要是因为短文本中的单词数量有限,不能表示特征空间和单词与文档之间的关系。近年来对文本分类的一些研究和评述。然而,目前针对短文本分类的研究还很少。本文论述了短文本的特点和短文本分类的难点。然后介绍了现有的短文本分类器和模型,包括基于语义分析的短文本分类、半监督短文本分类、集成短文本分类和实时分类。本文分析了短文本分类的评价方法。最后对现有的分类技术进行了总结,并对短文本分类的发展趋势进行了展望。
关键词:短文本;文本分类;特征选择;语义分析;集成学习;半监督学习
1 引言
随着电子商务和在线交流的爆炸式发展,短文本在许多应用领域都有应用,如即时消息、在线聊天日志、公告板系统标题、Web日志评论、互联网新闻评论、短信、twitter等。因此,成功地处理它们在许多Web和IR应用中变得越来越重要。然而,对这些文本和Web数据进行分类是一个新的挑战。
与普通文档不同,这些文本和Web段通常更嘈杂,不那么关注主题,而且更短,也就是说,它们由十几个单词到几个句子组成。由于长度较短,它们不能提供足够的词共现或共享上下文来进行良好的相似度量[40]。因此,一般的机器学习方法依赖词频、足够的词共现或共享上下文来衡量[41]文档的相似度,由于数据的稀疏性,往往无法达到预期的准确性。
本文提出了新的短文本分类方法,如语义分析、半监督短文本分类、短文本集成模型和实时分类等。然而,与大量关于文本分类的综述和调查相比,只有很少的调查出现讨论短文本分类的最新研究。本文分析了短文本分类面临的挑战,系统总结了利用分析方法对短文本分类的现有相关方法。
在分析短文本的特点和难点后,在第二节中指出短文本分类的过程。第三部分介绍了基于语义分析的短文本分类。第四节介绍了一些半监督短文本分类算法。第五节和第六节分别介绍了短文本分类的集成模型和在线短文本分类。第七节分析了相应的评价措施。在第八部分,我们总结了短文本的分类方法。
2 背景
A.短文本的特点
短信已被广泛应用于手机短信、即时消息、论坛标题、新闻标题、在线聊天记录、博客评论、新闻评论等多个领域。其主要特点是文本长度很短,不超过200个字符。我们日常常用的手机短信字数不超过70个字,论坛标题和新闻标题不超过30个字。即时消息(IM)软件支持较长的消息。为了快速发送信息并确保其安全,IM软件也限制了信息的长度,例如微软的Windows Live Messenger允许最长的信息长度为400个字符。事实上,在日常交流中,即时信息只是打几个字。
一般来说,短文本的特点如下:
- 稀疏性: 一个简短的文本只包含几个到十几个具有一些特征的单词,它不能提供足够的单词共出现或共享上下文来进行良好的相似度量。其有效的语言特征难以提取。
- 即时性: 短信息可以立即发送并实时接收。另外,数量非常大。
- 非标准性: 短文的描述是简洁的,有许多拼写错误,不标准的术语和噪音。
- 噪声和分布不均衡:应用背景(如网络安全)需要处理大量的短文本数据。然而,我们可能只关注大规模数据中的一小部分(检测对象)。因此,实用实例有限,短文本分布不均衡。
- 大规模数据和标记瓶颈:很难手工标记所有大规模实例。有限的标记实例可能只提供有限的信息。如何充分利用这些标注的实例和其他未标注的实例成为短文本分类的关键问题。
传统的SVM、BAYES、KNN等方法大多基于词频相似度,忽略了短文本的特征。这些传统的方法可能无法处理短文本分类。如果标注的信息不够充分,大多数算法(如贝叶斯算法)可能无法获得较高的精度。此外,一些基于向量空间模型(SVM)的分类方法应该利用语义信息来提高分类器的性能。
B 短文本分类
随着数字设备的日益普及和万维网页面数量的快速增长,文本分类已成为信息管理的重要组成部分。文本文档的自动分类在许多应用程序及时、正确地分类和提供适当文档的能力中扮演着至关重要的角色。
文本分类可以简单地定义如下(图1):给定一组文档D和C组类(或标签),定义一个函数,将分配一个值的集合C在D .例如简而言之每个文档文本分类、D可能包含所有报纸分类广告的集合,因此会和C组标题的分类部分相同的报纸。
在过去的十年里,对文本和Web文档进行分类的研究已经非常深入。许多学习方法,如k近邻(k- nn)、朴素贝叶斯(Naive Bayes)、最大熵(maximum entropy)和支持向量机(support vector machines, SVMs),已经应用于不同基准集的分类问题,并取得了满意的结果。然而,由于短文本本身的特点和难度,传统的分类方法并不适合短文本的分类。因此,如何合理地表示和选择特征项,有效地降低空间维度和噪声,提高分类精度成为短文本分类的问题。
3 基于语义分析的短文本分类
目前,减少特征空间维数的方法主要是基于语义特征和语义分析。这是因为文本分类的处理一般采用向量空间模型(VSM),该模型的基本假设是单词之间的关系是独立的,忽略了文本之间的相关性。然而,短文本的语义表达能力较弱,这就需要这种相关性。传统的分类方法无法区分自然语言的模糊性、同源词和同义词,而这些词在短文本中都非常丰富。因此,传统的分类方法往往无法达到短文本的预期准确率。
语义分析更注重概念、内部结构、语义层次以及文本之间的相互关系,从而获得更具表现力和客观性的逻辑结构。在已有的研究中,基于潜在语义分析(LSA)的分类占有重要的地位。潜在语义分析采用统计方法提取潜在语义结构,消除同义影响,降低特征维数和噪声。因此,人们提出了许多基于语义分析的算法来处理短文本分类(更详细的信息见表I)[3][5-11][44]。Zelikovitz[3]将其应用于短文本分类。将LSA与独立成分分析(ICA)[8][42]结合在一起。Xuan - Hieu Phan等人建立了大规模的短文本分类框架。该框架主要基于最近成功的潜在主题分析模型(如pLSA和LDA)和强大的机器学习方法,如最大熵和支持向量机。王炳坤等提出了一种基于潜在Dirichlet分配(LDA)和信息增益(IG)模型构建强特征词库(SFT)的方法来解决这一问题。提出了语言独立语义(LIS)内核[10],以增强对句法或语义信息的语言依赖性。该算法能够在不使用语法标签和词汇数据库的情况下有效地计算短文本文档之间的相似度。Mengen陈等。[11]提出了在多个粒度上提取主题的方法,可以更精确地对短文本进行建模。[3][4]是基于LSA的短文本分类的另一个例子。转导是利用测试实例来选择学习者的假设。与测试实例结合的空间再现选择了基于测试实例的一种表示。结合训练/测试集的降维使得更小的空间能够更准确地反映它将用于分类的测试集。将测试示例包含到原始矩阵中,允许LSA根据测试集中单词的词汇、示例和并发度计算单词的熵权。
在下一小节中,我们将详细描述LSA、pLSA和LDA的定义和处理。然后分别分析了这三种语义分析方法的优缺点。
4 半监督短文本分类
半监督学习指的是使用标记和未标记的数据进行训练。它对比了监督学习(数据都被标记)和非监督学习(数据都未被标记)。其他名称则是从有标记和无标记的数据中学习,或从部分有标记/分类的数据中学习。研究发现,未标记数据与少量标记数据结合使用,可以显著提高学习准确性。学习问题的标记数据的获取通常需要一个熟练的人类代理来手动分类训练示例。因此,与标记过程相关的成本可能使完全标记的训练集不可行,而未标记数据的获取相对便宜。在这种情况下,半监督学习[27]具有很大的实用价值。
大多数半监督短文本分类是灵活的半监督学习。它可以利用未标记的数据来改进分类器。然而,与传统的半监督学习算法不同,通用数据和训练/测试数据不需要具有相同的格式。此外,一旦估计,主题模型可以应用于多个分类问题,前提是它们是一致的。
参考文献[28]提出了一种新的半监督短文本分类算法。它使用无标记语料库作为学习者的“背景知识”。一个具体的例子可以在为技术论文分配主题标签的任务中看到。任何包含关于galaxy的单词的标题(例如galaxy)都应该很容易被正确归类为天体物理学论文,因为标题中的特征术语是常见的。然而,关于不太常见的主题的文章,例如“老白矮星”,应该能够通过利用来自同一领域的未标记的论文摘要的语料库来正确分类。这些未标注的论文摘要与老白矮星和各种训练标题都非常相似,但直接比较后发现,它们之间都有很大的不同。背景知识可以提供一个包含单词重要性和单词[29][6]联合概率信息的文本语料库。我们可以使用这个背景结合训练的例子来标记一个新的例子。
5 集成短文本分类
单个分类器通常基于条目特征的相似度进行分类,在特征空间稀疏的情况下很难计算相似度,很难获得很好的短文本分类预测结果。另一方面,集成学习方法通过为每个弱分类器分配一个权值,得到每个特征的权值;它适用于解决短文本分类问题。
参考文献[1]提出了一种新的动态短文本集成分类算法,以解决短文本的稀疏特征和数据不平衡问题。在该方法中,为了减少稀疏特征和不平衡数据的影响,构造了树状集合分类器来支持分类。在此基础上,提出了一种自适应调整组合结构的动态策略。孙爱新提出了一种基于较少单词[32]的短文本分类方法。该方法的预测类别标签是通过搜索一组与查询词最匹配的带标签短文本获得的搜索结果的多数投票。
[33]提出了一种新的模型来直接度量短文本实例和领域之间的相关性,而不是将短文本表示为权重向量。首先,利用长文档的外部语料库绘制每个用户定义领域的领域知识。其次,计算相关性。最后,如果相关性大于阈值,则将实例分类到域中。为了解决Twitter中的短文本不能提供足够的单词出现次数的问题,我们提出了另一种算法[34],该算法从作者的个人资料和Twitter中的文本中提取了一小组特定于领域的特征。该方法有效地将文本分类为一组预定义的泛型类。更详细的集成模型信息见表三。
6 大规模短文本实时分类
即时性是短文本的另一个特点,即短文本的发送是即时的,接收是实时的,通常数量非常大。因此,如何对大规模的短文本数据立即进行分类也成为一个重要的问题。目前,与几种经典分类算法相比,通常选择贝叶斯算法作为在线分类器。朴素贝叶斯算法通过计算文本所属类别的概率来判断类别,是一种简单、准确、应用广泛的[39]算法。
[35]提出了一种将在线过滤和离线分类相结合的垃圾邮件过滤系统。该系统利用朴素贝叶斯算法,根据消息的发送行为特征和内容对消息进行有效的过滤。此外,该系统采用反馈自学习机制,分类器可以根据过滤结果进行自我改进。另一种垃圾邮件过滤系统是基于原生贝叶斯和支持向量[36][37]的。本系统利用贝叶斯算法的快速统计分类和支持向量机增量训练的特点,并及时更新关键词数据库,增强自适应性。对实时算法的更详细描述见表4。
7 短文本分类的评价指标
如何对模型进行评价是短文本分类中的另一个重要问题。比较和评价该分类方法的指标主要有:
Accuracy,
Precision and recall
F-measure.
Macro average and micro average
8 总结
如今,信息传播和媒体的飞速发展,尤其是即时通信的兴起和发展,使得短文本得到了广泛的应用,如它在话题跟踪和发现、流行语分析、网络安全等方面的应用。短文本有其自身的特点,如稀疏性、大规模、即时性和非规范性。因此,由于数据的稀疏性,一般的机器学习方法往往无法达到预期的精度。
目前,短文本分类算法主要分为以下几个方面:
- 利用语义关系进行特征降维和特征提取。如LSA、LDA等分类模型。
- 结合大量的无标签文本,采用半监督分类算法解决标签瓶颈问题。
- 使用集成分类提高分类精度。
- 结合在线分类和离线分类处理大规模短文本。
- 然而,短文本分类是一个具有挑战性的领域,因为许多技术都处于起步阶段,分类的困难并没有得到很好的解决,如如何设计动态短文本流分类模型。根据短文本的应用,产生了多标签短文本分类、评论情感分类、垃圾邮件过滤、话题跟踪与控制等问题。