特征选择方法CHI和IG

1)TF-IDF在特征选择时的误区。

TF-IDF用于向量空间模型,进行文档相似度计算是相当有效的。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的

它仅仅综合考虑了该词在文档中的重要程度和文档区分度。

它没有考虑特征词在类间的分布。特征选择所选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀,这样的词对分类基本没有贡献;但是如果一个特征词比较集中的分布在某个类中,而在其它类中几乎不出现,这样的词却能够很好代表这个类的特征,而TF-IDF不能区分这两种情况。

它没有考虑特征词在类内部文档中的分布情况。在类内部的文档中,如果特征词均匀分布在其中,则这个特征词能够很好的代表这个类的特征,如果只在几篇文档中出现,而在此类的其它文档中不出现,显然这样的特征词不能够代表这个类的特征。


2)特征选择方法综述。

文本中能观察到的量其实只有两个:词频和文档频率,所有的方法一律以这两个量为计算基础。

针对英文纯文本的实验结果表明:作为特征选择方法时,卡方检验和信息增益的效果最佳(相同的分类算法,使用不同的特征选择算法来得到比较结果);文档频率方法(直接依据文档频率大小排序的方法)的性能同前两者大体相当,术语强度方法性能一般;互信息方法的性能最差。


3)信息增益。

在文本分类中,特征词t的取值只有t(代表t出现)和clip_image006(代表t不出现)。那么

最后,信息增益

但信息增益最大的问题还在于它只能考察特征对整个系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

实现方法:

 统计正负分类的文档数:N1、N2。

 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率(C)、负文档不出现频率(D)。

 计算信息熵

 计算每个词的信息增益


 将每个词按信息增益值从大到小排序,选取前k个词作为特征,k即特征维数。



4)卡方检测,CHI-Square test。

卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否具体做的时候常常先假设两个变量确实是独立的(“原假设”),然后观察实际值(观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,我们就认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,我们就认为两者实际上是相关的,即否定原假设,而接受备择假设。

理论值为E,实际值为x,偏差程度的计算公式为:

这个式子就是开方检验使用的差值衡量公式。当提供了数个样本的观察值x1x2,……xi,……xn之后,代入到式中就可以求得卡方值,用这个值与事先设定的阈值比较,如果大于阈值(即偏差很大),就认为原假设不成立,反之则认为原假设成立。

在文本分类的特征选择阶段,一般使用“词t与类别c不相关”来做原假设计算出的开方值越大,说明对原假设的偏离越大,我们越倾向于认为原假设的反面情况是正确的选择的过程为每个词计算它与类别c的开方值,从大到小排个序(此时开方值越大越相关),取前k个就可以。

卡方检验的缺点是:它只统计文档是否出现词,而不管出现了几次。这会使得他对低频词有所偏袒(因为它夸大了低频词的作用)。甚至会出现有些情况,一个词在一类文章的每篇文档中都只出现了一次,其开方值却大过了在该类文章99%的文档中出现了10次的词,其实后面的词才是更具代表性的,但只因为它出现的文档数比前面的词少了“1”,特征选择的时候就可能筛掉后面的词而保留了前者。这就是开方检验著名的“低频词缺陷”。因此开方检验也经常同其他因素如词频综合考虑来扬长避短。

实现方法:

 统计样本集中文档总数(N)。

 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率(C)、负文档不出现频率(D)。

3 计算每个词的卡方值,公式如下:

 将每个词按卡方值从大到小排序,选取前k个词作为特征,k即特征维数。

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
针对基于多分类问题的特征选择,有多种方法可供选择。以下是几种常见的特征选择方法: 1. 方差选择(Variance Threshold):该方法通过计算特征的方差来选择最具有信息量的特征。方差较小的特征被认为是噪声或无用特征,可以被过滤掉。 2. 相关系数(Correlation):相关系数可以衡量特征与目标变量之间的线性相关程度。可以使用Pearson相关系数、Spearman相关系数等来评估特征与目标变量之间的关联性,并选择相关性较高的特征。 3. 卡方检验(Chi-square test):卡方检验适用于分类问题中的离散特征。通过计算特征与目标变量之间的卡方统计量,来评估特征与目标变量之间的相关性。 4. 互信息(Mutual Information):互信息用于衡量特征与目标变量之间的非线性相关性。通过计算特征与目标变量之间的互信息,来评估特征对于目标变量的重要性。 5. 基于模型的方法(Model-based methods):这类方法使用机器学习模型来评估特征的重要性。例如,可以使用决策树算法或基于正则化的线性模型来计算特征的重要性得分,并选择得分较高的特征。 6. 递归特征消除(Recursive Feature Elimination):该方法通过递归地训练模型并剔除最不重要的特征选择特征。每次迭代都会计算特征的重要性,并剔除重要性得分较低的特征。 这些方法都有各自的优缺点,选择合适的方法要根据具体问题和数据集的特点来确定。可以根据实际情况尝试不同的方法或结合多种方法进行特征选择

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值