文本分类学习 (四) 特征选择之卡方检验

前言:上一篇提到了特征提取,或者叫做降维。在文本分类中,特征提取算法的优劣对于文本分类的结果具有非常大的影响。 所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。之前对卡方检验做过介绍:卡方检验是通过对特征进行打分然后排序,选择排名靠前的特征来表示文本。目录:文本分类学习(一)开篇文本分类学习(二)文本表示文本分类学...
摘要由CSDN通过智能技术生成

前言:

上一篇提到了特征提取,或者叫做降维。在文本分类中,特征提取算法的优劣对于文本分类的结果具有非常大的影响。 所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。

之前对卡方检验做过介绍:卡方检验是通过对特征进行打分然后排序,选择排名靠前的特征来表示文本。

目录:

文本分类学习(一)开篇
文本分类学习(二)文本表示
文本分类学习(三)特征权重(TF/IDF)和特征提取   
文本分类学习 (四) 特征选择之卡方检验

一:卡方检验的介绍

1.接下来简单介绍一下卡方检验:

(官方定义)

卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果当前统计量大于P值,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。(摘自智库百科)

(通俗的来讲)

卡方检验的思想是通过观察值和理论值之间的偏差来判断理论值的正确率是多少。如果正确率很大我们就认为理论值是正确的。所以我们一开始要设定一个理论值,这个理论值是我们根据自己的假设计算而来。

2.卡方检验的基本公式:

卡方检验的基本公式,也就是χ2的计算公式,也就是观察值和理论值之间的偏差

先介绍下这个公式是如何得来的吧

其中A代表观察频数(就是观察值),E代表期望频数(就是理论值,我们一开始做的那个假设得到的值)

那么第一步,观察值和理论值之间的偏差,就是二者的差。将多个观察值和理论值的偏差求和

这样确实可以表示偏差,但是多个观察值和理论值,且差值有正有负,那么就会相互抵消,如果抵消为0,本来有偏差的,现在变成没有偏差 了。所以第二步,加上平方之后再求和

这样确实可以表示偏差,但是多个观察值和理论值,且差值有正有负,那么就会相互抵消,如果抵消为0,本来有偏差的,现在变成没有偏差 了。于是第三步,在平之后再除以理论值之后再求和,这样不会因为理论值的大小而影响偏差的计算了

越是得到了最终χ2的计算公式。再回到这个式子:

A 为观

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值