文章目录
论文链接: Review of short-text classification
注: 本文从短文本分类的各个阶段进行介绍,总结了每个阶段的任务和相关最新技术。但从总体上看,本文仍然是对 2014年那篇综述的延伸,主要总结了机器学习方法在短文本分类方面的应用,而最近的神经网络技术却没有涉及。
摘要
目的:社交网络的迅速发展及其在日常生活中的使用,导致了短电子文档数量的爆炸式增长。因此,需要根据内容对此类文档进行分类,这在许多应用程序中都具有重要意义。需要将这些文献按照其文本内容分类,应该是有许多实际原因的。短文本分类在许多应用程序中都是必不可少的一步,例如垃圾邮件过滤、情感分析、Twitter个性化、客户评论以及许多其他与社交网络相关的应用程序。对短文本及其应用的研究有限。因此,本文旨在探讨短文本的特点及其在分类中的挑战和难点。本文试图介绍各个阶段的原理分类、每个阶段所使用的技术以及每个阶段可能的发展趋势。
本文对短文本分类的主要方面进行了综述。本文基于分类任务阶段进行结构设计。
本文就这些问题的相关问题和解决方法进行了探讨。进一步的研究可以解决短文本的挑战,避免分类准确率较低。低性能的问题可以通过使用优化的解决方案来解决,例如遗传算法在增强所选特征的质量方面非常强大。软计算解决方案有一个模糊逻辑,使短文本问题有前途的研究领域。
使用功能强大的短文本分类方法在提高效率方面显著影响许多应用程序。目前的解决方案仍然有较低的性能,这意味着需要改进。本文就这些问题的相关问题和解决方法进行了探讨。
关键词:社会网络,分类,情感分析,特征选择,短文本
1引言
社交网络的发展为人们提供了通过互联网获取信息的新途径。作为传统网络资源(如网站)的另一种选择,微博如今提供了一个有价值的信息门户,涉及从政治到娱乐的各种话题。考虑到用户可以选择自己感兴趣的信息类型,考虑到它的速度、效率和综合性,人们越来越倾向于在生活中使用社交网络,如Twitter、Googleþ和Facebook。每天都有数百万的短文以帖子或评论的形式出现。这类文档的长度一般不超过200个字符;例如,Twitter帖子最多包含140个字符。
然而,社交网络的用户有着不同的兴趣和偏好。许多人都面临着在合理时间找到合适数据的问题。因此,他们需要一种方法确定最相关的数据,并根据所涵盖的主题或一组其他特性(如后来的用户)对它们进行分类。因此,文本分类在情感分析、推文个性化和垃圾邮件过滤等许多问题中变得越来越重要。短文本的分类使用了与长文本分类相同的一系列步骤。该过程包括一个特征提取步骤和一个分类步骤,该步骤利用标记数据和训练数据中的特征信息对文本进行分类。与长文本分类相比,短文本分类的主要难点是文档的简洁性和特征空间的稀疏性。图1总结了这个分类过程的总体框架。
2 短文本分类面临的挑战
短文本涉及处理长度相对较短的文档的一类问题。很多应用程序都在使用这类文本,比如微博、Twitter、移动消息和新闻评论。这些文本的长度非常短,通常最多200个字符。例如,推文不超过140个字符,而手机短消息不超过70个字符。Song et al.(2014)认为,所有的短文本都具有以下属性:
- 短
- 稀疏
- 即时性
- 拼写错误和非正式性
根据Faguo et al.(2010),稀疏性和短性显著影响机器学习分类器的性能。由于传统的机器学习方法不能用于短文本,短文本的单词内容可能非常多样化,同时每个帖子的单词数量也很有限。这种情况使文本分类的特征空间构造变得复杂。特征空间的扩充,特别是特征的丰富,是应对短问题的最有效的解决方案之一。根据Kamath和Caverlee(2011)的研究,特征丰富有三种方法:
- 基于外部的丰富:这种技术通过添加从外部来源获得的特征来增加特征集中的单词数量,例如使用微博帖子中的链接,或者从与这些链接相关联的web页面中收集特征。我们也可以根据短文本语料库的上下文、语义相似度来丰富短文本,或者通过搜索引擎从可信站点中找到网页。收集完网页后,可以直接将发现的词汇添加到短文本语料库中。其他人可以依赖主题分类法,例如,通过使用维基百科的类别来丰富短文本。另一种方法是使用词性(POS),例如,在一篇短文中识别名词通常可以提供对整个信息的可靠理解。
- 基于词汇的丰富:为了解决术语的稀疏性问题,我们可以使用词汇方法。在基于字符的n-gram中,特征集是由文档中m个相邻字符组成的字符串组成的。另一方面,在基于单词的n-gram中,特征集是由文档中的单词构建的。
- 基于搭配的丰富:Manning(1999)指出,搭配意味着“两个或两个以上的词在一起形成一个与说话方式相匹配的表达方式”。搭配可以向特征空间添加额外的特征。搭配中最重要的因素是关联测度,它是一种数学方法,用来衡量一个短语中单词之间的关联程度。从本质上说,这种方法估计短语中单词之间的共现情况。这种方法的例子有互信息法、对数似然比法和卡方法。
3 预处理及其对分类的影响
如前所述,文本分类通常通过连续的步骤来完成,首先对真实数据应用几个净化操作来去除所有杂质,并以标准形式表示所有数据,以确保它们已准备好用于不同的机器学习算法。清理文本和清除其杂质的过程被称为预处理步骤,可以改变分类任务的性能(Haddi et al., 2 0 1 3)。这个步骤之后是选择文本中最具区别性的术语。标记化、词干提取、停止词删除和小写被认为是大多数文本分类算法共享的标准预处理操作。
标记化包括将文本拆分为有意义的片段。对分类过程没有好处的常见词,即所谓的停止词,然后被删除。因此增大了空间大小,导致整个系统延迟。词干提取是识别词根的过程。词干提取的目的是找到从该词干派生的一组单词的词干。最后一个操作是将所有单词的字母转换为小写字母。微博数据的分类需要一个额外的过程;必须使用特定的方法处理这类文档中经常出现的非正式和拼写错误。各种预处理操作取决于所收集数据的性质和应用。但是,所有的操作都是为了保证数据不会增加特征空间的维数,降低分类任务的性能和复杂性。
4 短文本分类中的加权方案
对文本进行分类或从中获取信息,需要确定哪些单词在文本中是重要的。完成这一任务的最常用方法是为每个单词分配一个数值,以反映其对文档分类的贡献。这个值被称为术语的权重。TF-IDF方案因其分类简单、效率高而被广泛应用。
要对文本进行分类,一份文件应表示为术语的集合;术语本身可以是单个词,也可以有多个单词。单字术语通常用于文本表示。多词术语可以是下列之一:语法短语,统计短语和术语集。句法短语(Scott and Matwin, 1999)是根据句法关系排列的IJWIS 15,2158个单词的串接。熟悉的短语通常是动词、名词和形容词短语。统计短语(以n克为单位)(Bekkerman and Allan, 2003)是由n个连续单词组成的序列,用于定义基于共现的特征。术语集(Badawi和Altınçay, 2014)是一个词序列,在这个序列中,术语的共现不一定是相邻的。
术语权重是根据文档中单词的统计信息或语义权重计算的。语义权重方案利用类别的语义进行索引。Luo等人(2011)指出,类别的语义由类标签中出现的术语的含义以及WordNet对术语的分析来表示。
根据加权方案在分类过程中是否需要训练文档的类别信息,将其分为两类。无监督加权方案不使用类信息来区分术语,例如TF、TF-IDF和它的变体。另一方面,有监督加权方案使用类信息,许多研究人员(martinau等人,2 0 0 8;Ren and Sohrab, 2013)为文本分类提出了新的词权重方案,每个研究者都考虑用不同的方法来表达词在文档中的重要性。
无监督术语加权方案
传统上,文本分类使用表示最简单方法的二进制权重,或者TF及其变体的词权重方案。特遣部队吗?IDF被认为是最常见的加权方案,因为它简单和有效。表一总结了最常见和传统的term frequency方案。
有监督术语加权方案
有监督的术语加权是由传统的影响分类和术语选择的监督学习方法衍生出来的。因此,权重揭示了一个特定术语的重要性,它可以通过使用训练语料库中的成员信息来决定一个文档是否属于某个特定类别。为
许多研究人员(Hemalatha et al., 2013;Rosa et al., 2 0 1 4)对短文本和长文本都使用了加权方案,但没有关注短文本的特殊性。考虑到对分类性能有显著影响,他们将重点放在改进的方法上,该方法可以增强分类或术语选择和提取方法。其他研究人员通过更新现有方案以满足短文本的需求,开发了一种专门用于短文本的方案。Quan等(2011)提出了三种新的监督term-weighting方案,即qf?icf icf, qf ? ?iqf和vrf,用于问题的分类。所提出的方法取决于类的逆和项的出现。为了验证这三种方法的有效性,我们使用支持向量机和KNN对雅虎问题作为数据集进行了实验。结果显示,qf?icf?iqf法优于大多数项权重法,其准确性在所有方法中最高,而tf?OR是所有方法中最好的方法。
5 短文本中的特征选择与提取
文本分类面临的主要挑战是词汇的冗余和无关性,这些词汇会对文本分类造成干扰。减少不必要的数据可以提高分类的准确性,因为它减少了整个过程的模糊性,并通过减少特征空间的维数来降低模型构建的复杂性。
大多数文本分类的特征选择方法都基于词频(Lopez et al., 2007),词频指的是一个单词在一个文档中出现的次数。其他的方法是基于文档频率的,其中一个特定的单词在一个语料库中出现的文档数量被统计(Ogura等人,200 9)。许多研究人员(Martineau等人,2008;Quan等,2 0 1 1;Ren and Sohrab, 2013)认为词频提供了一个词在文档或整个语料库中的贡献信息。然而,文档频率只能说明某个特定术语是否存在于文档中。
特征集降维的目的是通过只保留重要的特征并去除冗余或不必要的特征来提高分类性能。这种增强可以通过使用特征提取和特征选择这两个过程中的一个来实现。特征提取生成新的特征。它是一种特征集在不移除任何现有特征的情况下转换成新的特征集的过程。特征选择是在不创建任何新的特征集的情况下选择原始特征集的一个子集来减少特征空间。研究人员根据问题的应用领域和性质使用这两种方法中的一种或两种方法的组合。关于特征选择方法的更详细信息见表二。
5.1 特征选择方法
三种特征选择方法包括过滤器、包装器和嵌入方法。filter方法是利用特征集对IJWIS 15、2 160进行统计分析,选择具有更强判别性的特征。该方法只考虑文档的基本属性,对不相关的数据快速、健壮;当特征空间的尺寸较大时,它是有用的。包装方法(孟and Lin, 2010)是一种更为复杂的特征选择方法。它涉及到与分类器的必要交互,并将性能作为特征选择的标准。嵌入式方法(Mundra and Rajapakse, 2010)不同于包装方法。它不将数据语料库划分为训练集和验证集。
5.2 基于过滤器的方法
5.3包装器和嵌入式方法
5.4 特征提取
特征提取是通过对原始特征集进行组合或变换来降低特征空间的维数。该提取方法旨在保留原始数据的潜在结构,从原始特征集中提取新的特征。当特征空间包含大量不相关的特征时,提取方法的性能下降。偏最小二乘(Tenenhaus et al., 200 5)、潜在语义索引(Deerwester et al., 1 9 9 0)和主成分分析(PCA) (Kim, 2008)是特征提取的例子。
许多研究者在文本分类应用中使用主成分分析(Zareapoor and K. R, 2015;Bharti和Singh, 2015;Veerabhadrappa和Rangarajan, 2010)因为它的效率。与任何一种特征提取方法一样,PCA将原始的特征集转换成一个新的特征集,其大小小于初始的特征集。换句话说,PCA从原始的相关变量集合中构造不相关的成分。这个分量表示原始变量的线性加权积分。
双向筛选和提取方法的研究越来越多;这两种方法都对这个条件有好处,比如将筛选器和包装器方法结合在一起以最大限度地提高分类的准确性的混合方法。通常使用filter方法进行第一阶段的选择,然后应用提取算法(Bharti and Singh, 2015;Zareapoor and K. R, 2015)。Veerabhadrappa和Rangarajan(2010)提出了一种结合滤波器特征选择和特征提取两阶段的方法来选择最优的判别特征集。在第一阶段,利用相互关联来降低特征空间的维数,然后利用PCA或LPP提取特征。许多实验对该方法的性能进行了评估;IJWIS 15,2 164的结果表明,双层方法优于任何一种方法。
Zareapoor和K. R(2015)比较了电子邮件分类中使用的特征提取和特征选择。结果表明,特征提取(PCA、LSA)优于特征选择(IG、CHI)。此外,LSA达到了最好的精度。提取方法不依赖于所选特征的数量。
6 短文本分类
文本分类是将每个文档分配给预定义类的正确标签的过程。在信息检索中,许多应用程序使用文本分类,如情感分析、客户评论、搜索和许多其他应用程序。文本分类分为两个步骤:训练步骤和测试步骤。在训练中,将训练语料库进行分类,利用特征提取来消除所有的噪声和冗余词;因此,在测试步骤中使用的数据集中,只有相关的鉴别器项保留。因此,当输入测试文档时,学习步骤中的数据将被用来为该文档分配足够的类标签。
在对文本进行分析或分类时,首先想到的是提取单词并计算其频率,以便在大多数单词的基础上进行分类。另一个可以考虑语法和单词位置来执行相同的操作。本文总结了文本分类中常用的有监督和无监督两种方法。一些研究者喜欢从单词的底部开始。这个词被评分来评估它的强度和单词之间的相关性。然后,确定其主观性,并根据文献的主观性进行分类。另一种方法是从上到下,使用基于类标记为文档的集合训练分类器。这两种方法与监督和无监督文本分类算法的熟悉状态被简要地描述。如表III所示,机器学习算法之所以成为关注的焦点,是因为前几年的大部分实验都表明机器学习方法在短文本分类中取得了成功,并且在很多情况下获得了较高的准确率。
6.1 机器学习
在机器学习中,数据集需要分为两个集:一个训练集和一个测试集。训练数据用于训练分类器如何使用带有这些数据集的文档的特征来区分文档,而测试集用于验证和评估分类器的性能。图2说明了不同的机器学习方法。两种类型的机器学习算法是无监督学习和监督学习。后者需要从训练语料库中获取大量已标注的文档来实现学习,而前者不需要进一步的知识就可以对示例进行分类。有时,标记数据的一些问题是不可用的。相反,类似的文档被分组在集群中。聚类可以使用两种方法:层次聚类(如凝聚层次聚类)和分区聚类(如K-means聚类)。然而,由于数据源或这些数据的注释可能不准确,有时收集的标记数据需要大量的工作。在这种情况下,研究人员使用semi-supervised学习方法有小数量的标签数据,和其他不标记(阴et al ., 2 0 1 5)。在这里,重点是患病率和高效的监督方法,因为在文本分类。
6.1.1基于实例的分类器 该方法不是从训练文档中构造类描述,而是基于测试文档和训练语料库中每个文档的相似度度量。它只是将相关的训练文档以特定的表示形式实现,比如将TF放在同一个类下(Feldman和Sanger, 2007)。然而,这种分类决策过程需要很长时间。这种方法的一个例子是KNN分类器,它是一个简单的分类器。它的目标是找到K个与新文档相似度最大的文档。它通过使用余弦度量、欧几里得距离或其他相似公式来度量文档之间的相似度。然后,根据与测试文档对应标签的最高相似度分类,选择与所展示文档相似度最大的K个文档。然而,对于每个新的测试文档,都需要找到与数据集中所有文档的相似性
6.1.2概率分类器该分类器被视为生成分类器。概率分类器假设每个类别都是组合的一个组成部分。不仅需要找到文档应该属于的最合适的类,它也能够预测给定文档在一组类中的概率分布。
6.1.3决策树分类器
6.1.4线性分类器
7 集成分类
每个分类器通常都有其影响其性能的优缺点。集成将结合多个分类器的优势,以最大限度地提高预测性能。它可以避免某些方法的缺点,或者从一组分类器中受益,从而避免做出错误决策的风险。此外,可以避免偏置分类(Wang et al., 2014),集成分类具有良好的性能和准确性(da Silva et al., 2014)。集成方法的性能取决于基础学习算法的组合,以及选择合适的组合方法进行基础学习算法。
分类中通常使用两种集成方法:依赖方法和独立方法(Rokach, 2010)。在独立方法中,使用相同的训练语料库同时学习单个分类器;然后将结果进行组合,并在所有分类器中选择最佳结果(Feldman和Sanger, 2007)。不同分类器的结果可以通过不同的方式进行聚合。最流行的一种是在集成分类器的结果中采用多数原则,选择最佳的查看结果。Bagging和dagging是独立方法的例子,而依赖方法通过连续训练许多分类器来改进分类。在学习下一个分类器之前,训练语料库被重新赋予一个最大权重,该权重被分配给被前一个分类器错误分类的文档。相关方法的一个例子是增强算法(Hassan等人,2013)。
增强算法通过迭代地增强训练集中实例权值的更新,从而使错误分类实例的权值增加,而分类实例的权值减少。AdaBoost就是这种技术的一个例子(Hassan et al., 2 0 1 3), Ammar Hassan提出了用于Twitter情感分析的bootstrap集成方法(BPEF)。采用SVM、NB、bays网、随机树、NN、logistic回归和REP树7种分类器。实验结果表明,与实验中所测试的其他算法和技术相比,BPEF的召回得分最高。
8 分类评价指标
9 评估和讨论
10 结论
短文本分类被认为是一个复杂的问题,因为每天都会产生数百万篇不同主题的帖子(短文本)。数据中的冗余和噪声是社交媒体和使用短文本的不同应用程序中的一个常见问题。本文综述了短文本分类的最新技术及其应用。总结了现有的解决方案,以及它们的优缺点。本文首先从短文本识别及其对文本分类领域提出的挑战入手,接着介绍了预处理处理这种数据的局限性,将其转换为不同机器学习分类的输入。我们强调了最先进的加权方案和特征选择,并提出了可以在短文本和长文本中使用的方法。最后一节介绍了可以用来评估每种方法的最佳评估措施。
对比分析证实了各种方法的重要性和对不同数据集使用不同方法的影响。分析和比较的重点是监督方法,因为它是最常见的。因此,有必要探索半监督和非监督两种方法来解决短文本分类问题。同时也注意到,一些方法在一些研究中取得了优异的成绩,而在另一些研究中则表现不佳。从上面的分析中可以明显看出,两种方法都不能始终打败对方。研究还发现,将数据预处理与特征选择相结合可以获得更好的结果。
使用功能强大的短文本分类方法在提高效率方面显著影响许多应用程序。目前的解决方案仍然有较低的性能,这意味着需要改进。本文讨论了这些问题的相关问题和解决方法。进一步的研究可以解决短文本的挑战,避免分类准确率较低。低性能的问题可以通过使用优化的解决方案来解决,例如遗传算法在增强所选特征的质量方面非常强大。软计算解决方案有一个模糊逻辑,使短文本问题有前途的研究领域。