ig信息增益 java_文本分类综述

文本分类是一项系统的工程,所涉及的技术很多,按流程可以将文本分类分为:文本预处理阶段、训练阶段、分类阶段、评价四个阶段,其中预处理阶段要文本处理成计算机能识别的格式,首先对文本进行分词处理,中文文本和英文文本组织形式不同,中文文本的分词过程比英文分词要复杂得多。分词后文本的特征词非常多,而我们需要的只是少数有使用价值的特征词,因此分词后的文本要进行特征选择,并将特征选择后的特征项加权,最后将文本表示成向量空间模型(VSM),经过预处理后的文本才能进行分类。分类算法是文本分类的核心技术。评估阶段是对文本分类的效果进行评价,常用的指标有:准确率、召回率、以及综合这两个指标的评价方法一F1值等。

文档表示方法

文档集划分为训练集和测试集两个部分,训练集用于分类模型的学习,一般占整个文档集的70%;测试集用于评价分类模型,一般占整个文档集的30%。开放的英文文档集Reuters-21578和20NewsGroups。前者比后者更为常用。

经过半个世纪的发展,在文本处理领域,研究者提出了一些文本表示模型,主要有:布尔模型、向量空间模型、概率检索模型、n-Gram模型等,其中使用最广、效果最好的是向量空间模型。

向量空间模型

20世纪60年代,Salton G等人提出了向量空间模型,并成功应用于SMART文本检索系统,其基本思想是:将文本表征成由特征项(词)构成的向量空间中的一个点,(W1,W2,…,Wi),其中Wi为第i个特征项的权重,然后通过计算空间两点之间的相似度来表示两个文本的相关程度,相似度计算一般采用欧氏距离或向量夹角的余弦值。向量空间模型在实际使用中取得了很好的效果,常用的文本分类算法中,支持向量机、K近邻、和NB都是基于向量空间模型的。

布尔模型

布尔模型可以看作是向量模型的一种特例,根据特征是否在文档中出现,特征的权值只能取1或0。许多时候,使用二值特征的分类效果结果并不比考虑特征频率的差。决策树方法、关联规则方法和Boosting方法就是基于布尔模型。

概率模型

我们可以用该流程的思想来解决出现在文档检索中的不确定性和找寻的不清楚性。概率模型的理论是基于概率排队的:如果文件是按相关概率递减方向排队时,那么就会出现最大的检索性能。选用此种模型可以克服BM和SVM中的不足,此种模型根据词与词间和文档间与词条的概率关联性进行搜索。设文档d和顾客查询c都用(a1,a2,…an)表示,当词条ti∈d时,有ai=1.否则ai=0,这种关系可数学表示为:

9ed45356dbec32c7a831bb27db5104e7.png

其中

c5a4db66489da5cfe433f2986618fe53.png

f是所有参加训练的文档的总和,r则为顾客查询与文档集中相关的文档数,fi则表示训练文档集中有ti的文档数,ri则表示r个相关文档中有ti的文档数,模型的有点是有着非常严谨的数学理论基础,解决了不确定性推理的缺点,但是它的不足在于参数估计方面很困难,在文件和查询的表达方面也是很困难

文档分词

词是文本中最小的具有意义的语言成分,是构造向量空间模型的基础,文本分词的效果直接影响到文本分类的结果。在文本的组织上,中文与以英语为代表的欧美语言有着很大的不同,在西方语言中,词与词是使用空格隔开的,因此不需要进行分词处理,而在中文文本中,字、词是连在一起的,一个语句就是一连串的字、词组合,词与词之间没有明显界限,因此,分词的难度较大。常用的分词算法主要有:基于词典的分词方法、基于理解的分词方法、基于统计的分词方法。

基于词典的分词方法

基于词典的分词方法又叫做机械分词方法,它是按照一定的策略将待切分的字符串与词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(即识别出一个词)。按照扫描方向的不同,基于词典的分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法,常用的几种基于词典分词方法如下:正向最大匹配法(由左到右的方向)、逆向最大匹配法(由右到左的方向)、逐词遍历法。

在实际应用中,常常将上述方法结合起来。例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。

再一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。还有一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。目前实用的自动分词系统基本上都是以采用机械分词为主,辅以少量的词法、语法和语义信息的分词系统。该方法的优点是易于实现,但精度较低,远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,再利用各种其它的语言信息来进一步提高切分的准确率。

基于理解的分词方法

又称人工智能分词法,这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

基于统计的分词方法

基于统计的分词算法的思想是:找出输入字符串的所有可能的切分结果,对每种切分结果利用能够反映语言特征的统计数据计算它的出现概率,然后从结果中选取概率最大的一种。词是稳定的字的组合,因此在上下文中,如果相邻的字共现的次数越多,就越有可能构成一个词。因此字与字相邻出现的频率或概率能够较好的反映成词

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值