两个特征是独立好还是正相关好_文本特征选择和提取

最新推荐文章于 2022-12-16 17:30:48 发布

weixin_39542111

最新推荐文章于 2022-12-16 17:30:48 发布

阅读量299

点赞数

文章标签：两个特征是独立好还是正相关好

一、文本特征项的特点：

特征项要能够确实标示文本内容
特征项具有将目标文本与其他文本相区分的能力。
特征项的个数不能太多。
特征项分离要比较容易实现。

特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高文本处理的速度和效率。

特征抽取：通常根据某个特征评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征。

特征选取的方法有4种：

用映射或变换的方法把原始特征变换为较少的新特征。
从原始特征中挑选出一些最具代表性的特征。
根据专家的知识挑选最有影响的特征。
用数学的方法进行选取，找出最具分类信息的特征，尤其适合于文本自动分类挖掘系统的应用。

二、基于统计的特征提取方法（构造评估函数）

1. 词频

词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一闭值或大于某一值的词删除，从而降低特征空间的维数。这个方法是基于这样一个假设，即出现频率小的词对过滤的影响也较小。出现频率大的词可能是无意义的普通词。但是在信息检索的研究中认为，有时频率小的词含有更多的信息。因此，在特征选择的过程中不宜简单地根据词频大幅度删词。

2. 文档频次

文档频数(Document Frequency, DF)是最为简单的一种特征选择算法,它指的是在整个数据集中有多少个文本包含这个单词。在训练文本集中对每个特征计算它的文档频次，并且根据预先设定的阈值去除那些文档频次特别低和特别高的特征。文档频次通过在训练文档数量中计算线性近似复杂度来衡量巨大的文档集，计算复杂度较低，能够适用于任何语料，因此是特征降维的常用方法。

在训练文本集中对每个特征计算它的文档频数,若该项的DF 值小于某个阈值则将其删除,若其DF 值大于某个阈值也将其去掉。因为他们分别代表了“没有代表性”和“没有区分度”2 种极端的情况。DF 特征选取使稀有词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。DF 的优点在于计算量很小,而在实际运用中却有很好的效果。缺点是稀有词可能在某一类文本中并不稀有,也可能包含着重要的判断信息,简单舍弃,可能影响分类器的精度。

文档频数最大的优势就是速度快,它的时间复杂度和文本数量成线性关系,所以非常适合于超大规模文本数据集的特征选择。不仅如此,文档频数还非常地高效,在有监督的特征选择应用中当删除90%单词的时候其性能与信息增益和x2 统计的性能还不相上下。

3. TF-IDF

词频（TF）= 某个词在文章中的出现次数 / 文章的总词数

逆文档频率（IDF） = log(语料库的文档总数 / （包含该词的文档数+1）)

TF-IDF = TF * IDF

TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。

1）它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多，而其它类出现少，即考察各类的文档频率的差异。如果一个特征词，在各个类间分布比较均匀，这样的词对分类基本没有贡献；但是如果一个特征词比较集中的分布在某个类中，而在其它类中几乎不出现，这样的词却能够很好代表这个类的特征，而TF-IDF不能区分这两种情况。

2）没有考虑特征词在类内部文档中的分布情况。在类内部的文档中，如果特征词均匀分布在其中，则这个特征词能够很好的代表这个类的特征，如果只在几篇文档中出现，而在此类的其它文档中不出现，显然这样的特征词不能够代表这个类的特征。

特征提取的目的在于降维。即使随机选取一部分词，分类效果也不会差到惊人的地步。采用了TF-IDF方法的分类效果当然也能有不错的效果。当然，TF-IDF用于向量空间模型，进行文档相似度计算是相当有效的。

4. 互信息

互信息衡量的是某个词和类别之间的统计独立关系。互信息是计算语言学模型分析的常用方法，它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。

使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度，如果特征词属于该类的话，它们的互信息量最大。由于该方法不需要对特征词和类别之问关系的性质作任何假设，因此非常适合于文本分类的特征和类别的配准工作。

互信息计算的时间复杂度类似于信息增益, 互信息的平均值就是信息增益。互信息的不足之处在于得分非常受词条边缘概率的影响。

实验数据显示,互信息分类效果最差,其次是文档频率、CC 统计,CHI 统计分类效果最好。

5. 期望交叉熵

交叉嫡，也称KL距离。它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距离，词汇w的交叉嫡越大，对文本主题类分布的影响也越大。它与信息增益唯一的不同之处在于没有考虑单词未发生的情况，只计算出现在文本中的特征项。如果特征项和类别强相关, P ( Ci | w )就大,若P( Ci) 又很小的话,则说明该特征对分类的影响大。

交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离, 特征词t 的交叉熵越大, 对文本类别分布的影响也越大。熵的特征选择效果都要优于信息增益。

6. 二次信息熵

将二次熵函数应用于互信息评估方法中，取代互信息中的Shannon熵，就形成了基于二次熵的互信息评估函数。基于二次熵的互信息克服了互信息的随机性，是一个确定的量，因此可以作为信息的整体测度，另外它还比互信息最大化的计算复杂度要小，所以可以比较高效地用在基于分类的特征选取上。

7. 信息增益方法

信息增益方法是机器学习的常用方法，在过滤问题中用于度量已知一个特征是否出现于某主题相关文本中对于该主题预测有多少信息。通过计算信息增益可以得到那些在正例样本中出现频率高而在反例样本中出现频率低的特征，以及那些在反例样本中出现频率高而在正例样本中出现频率低的特征。

信息熵

意思就是一个变量可能的变化越多（反而跟变量具体的取值没有任何关系，只和值的种类多少以及发生概率有关），它携带的信息量就越大。

一个系统一个特征t，系统有它和没它的时候信息量各是多少，两者的差值就是这个特征给系统带来的信息量，系统越是有序，信息熵就越低；反之，一个系统越乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个衡量。

信息增益（特征的）是指期望信息或者信息熵的有效减少量。

对于一个特征t，系统有它和没它的时候信息量各是多少，两者的差值就是这个特征给系统带来的信息量。有它即信息熵，无它则是条件熵。

条件熵：计算当一个特征t不能变化时，系统的信息量是多少。

对于一个特征X，它可能的取值有n多种（x1，x2，……，xn），计算每个值的条件熵，再取平均值。

在文本分类中，特征词t的取值只有t（代表t出现）和t'（代表t不出现）。那么

最后，信息增益为：

但信息增益最大的问题还在于它只能考察特征对整个系统的贡献，而不能具体到某个类别上，这就使得它只适合用来做所谓“全局”的特征选择（指所有的类都使用相同的特征集合），而无法做“本地”的特征选择（每个类别有自己的特征集合，因为有的词，对这个类别很有区分度，对另一个类别则无足轻重）。

信息增益特征提取步骤：

1）统计正负分类的文档数:N1、N2。

2）统计每个词的正文档出现频率（A）、负文档出现频率（B）、正文档不出现频率）、负文档不出现频率。

3）计算信息熵

4）计算每个词的信息增益

5）将每个词按信息增益值从大到小排序，选取前k个词作为特征，k即特征维数。

8. x2统计量方法

x2统计量用于度量特征w和主题类C之间的独立性。

当特征w和主题类C之间完全独立的时候，x2统计量为0。x2统计量和互信息的差别在于它是归一化的统计量，但是它对低频特征的区分效果也不好。X2 统计得分的计算有二次复杂度, 相似于互信息和信息增益。在 X2 统计和互信息之间主要的不同在于 X2 是规格化评价, 因而 X2 评估分值对在同类中的词是可比的, 但是 X2 统计对于低频词来说是不可靠的。

利用x2 统计方法来进行特征抽取是基于如下假设:在指定类别文本中出现频率高的词条与在其他类别文本中出现频率比较高的词条,对判定文档是否属于该类别都是很有帮助的.

采用x2估计特征选择算法的准确率在实验中最高，其分类效果受训练集影响较小，比较稳定。而且在对文教类和政治类存在类别交叉现象的文本进行分类时，采用x2估计的分类系统表现出了优于其它方法的分类性能。X2估计的可靠性较好，便于对程序的控制，无需因训练集的改变而人为的调节特征阀值的大小。

9. 文本证据权：权衡量类的概率和给定特征时类的条件概率之间的差别。

10. 优势率：只适用于二分类。只关心文本特征对于目标类的分值。

11. 遗传算法

文本实际上可以看作是由众多的特征词条构成的多维空间,而特征向量的选择就是多维空间中的寻优过程,因此在文本特征提取研究中可以使用高效寻优算法。遗传算法(Genetic Algorithm, GA)是一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最佳代码串,并使之一代一代地进化,最终获得满意的优化结果。在将文本特征提取问题转化为文本空间的寻优过程中,首先对Web文本空间进行遗传编码,以文本向量构成染色体,通过选择、交叉、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到Web文本的最优特征向量。

12. 主成分分析：不是通过特征选取的方式降维的，而是通过搜索最能代表原始数据的正交向量，创立一个替换的较小的变量集来组合属性的精华，原数据可以投影到这个较小的集合。

主成分分析法是特征选取常用的方法之一，它能够揭示更多有关变量_丰要方向的信息。但它的问题在于矩阵方法中要使用奇异值分解对角化矩阵求解方差一协方差。

13. 模拟退火算法：理论上能找到全局最优解

14. N-Gram算法

它的基本思想是将文本内容按字节流进行大小为N的滑动窗口操作,形成长度为N的字节片段序列。每个字节片段称为gram,对全部gram的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键gram列表,即为该文本的特征向量空间,每一种gram则为特征向量维度。

三、影响特征词权值的因素

1.词频：文本内空中的中频词往往具有代表性，高频词区分能力较小，而低频词或者示出现词也常常可以做为关键特征词。所以词频是特征提取中必须考虑的重要因素，并且在不同方法中有不同的应用公式。

2. 词性：考虑剔除对文本分类没用的虚词，可只提取文本中的名词和动词作为一级特征。

3. 文档频次：出现文档少的特征词更能代表文本的不同主题。

4. 标题：小标题的识别能力在一定程度上提高文摘的质量。

5.位置：提高处于特殊位置的权重

6. 句法结构：句式与句子的重要性之间存在着某种联系，比如摘要中的句子大多是陈述句，而疑问句、感叹句等则不具内容代表性。而通常“总之”、“综上所述”等一些概括性语义后的句子，包含了文本的中心内容。

7. 专业词库：通用词库包含了大量不会成为特征项的常用词汇,为了提高系统运行效率,系统根据挖掘目标建立专业的分词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率。可以通过人工确定领域内的关键词集。

8. 信息熵：

9. 文档、词语长度：一般情况下,词的长度越短,其语义越泛。一般来说,中文中词长较长的词往往反映比较具体、下位的概念,而短的词常常表示相对抽象、上位的概念。一般说来,短词具有较高的频率和更多的含义,是面向功能的;而长词的频率较低,是面向内容的,增加长词的权重,有利于词汇进行分割,从而更准确地反映出特征词在文章中的重要程度。

根据统计,二字词汇多是常用词,不适合作为关键词,因此对实际得到的二字关键词可以做出限制。比如,抽取5个关键词,本文最多允许3个二字关键词存在。这样的后处理无疑会降低关键词抽取的准确度和召回率,但是同候选词长度项的运用一样,人工评价效果将会提高。

10. 单词的区分能力：在TF*IDF公式的基础上,又扩展了一项单词的类区分能力。新扩展的项用于描述单词与各个类别之间的相关程度。

11. 词语直径：指词语在文本中首次出现的位置和末次出现的位置之间的距离。

12. 首次出现位置：关键词一般在文本中较早出现，因此位置靠前的候选词应加大权重。

13. 词语分布偏差：考虑的是词语权重在文章中的统计分布。在整篇文章中分布均匀的词语通常是重要的词汇。词语的分布偏差计算公式如下:其中,CurLoc ( tj )是词汇t在文章中第j次出现的位置;MeanLoc ( t )是词汇t在文章中出现的平均位置。