前言:
上一篇提到了特征提取,或者叫做降维。在文本分类中,特征提取算法的优劣对于文本分类的结果具有非常大的影响。 所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。
之前对卡方检验做过介绍:卡方检验是通过对特征进行打分然后排序,选择排名靠前的特征来表示文本。
目录:
一:卡方检验的介绍
1.接下来简单介绍一下卡方检验:
(官方定义)
卡方检验是以χ2分布为基础的一种常用假设检验方法,它的无效假设H0是:观察频数与期望频数没有差别。该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果当前统计量大于P值,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。(摘自智库百科)
(通俗的来讲)
卡方检验的思想是通过观察值和理论值之间的偏差来判断理论值的正确率是多少。如果正确率很大我们就认为理论值是正确的。所以我们一开始要设定一个理论值,这个理论值是我们根据自己的假设计算而来。
2.卡方检验的基本公式:
卡方检验的基本公式,也就是χ2的计算公式,也就是观察值和理论值之间的偏差
先介绍下这个公式是如何得来的吧
其中A代表观察频数(就是观察值),E代表期望频数(就是理论值,我们一开始做的那个假设得到的值)
那么第一步,观察值和理论值之间的偏差,就是二者的差。将多个观察值和理论值的偏差求和
这样确实可以表示偏差,但是多个观察值和理论值,且差值有正有负,那么就会相互抵消,如果抵消为0,本来有偏差的,现在变成没有偏差 了。所以第二步,加上平方之后再求和
这样确实可以表示偏差,但是多个观察值和理论值,且差值有正有负,那么就会相互抵消,如果抵消为0,本来有偏差的,现在变成没有偏差 了。于是第三步,在平之后再除以理论值之后再求和,这样不会因为理论值的大小而影响偏差的计算了
越是得到了最终χ2的计算公式。再回到这个式子:
A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际