文本分类学习（四）特征选择之卡方检验

最新推荐文章于 2022-07-26 18:32:50 发布

Dacc123

最新推荐文章于 2022-07-26 18:32:50 发布

阅读量1.6k

点赞数 3

分类专栏：文本分类文章标签：文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Dacc123/article/details/94588917

版权

本文介绍了卡方检验在文本分类特征选择中的作用，详细讲解了卡方检验的原理、公式和卡方分布，通过实例展示了如何使用卡方检验进行特征重要性排序，以及其在四格表中的应用。最后讨论了卡方检验的低词频性缺点，并预告了接下来的实战应用。

摘要由CSDN通过智能技术生成

前言：

上一篇提到了特征提取，或者叫做降维。在文本分类中，特征提取算法的优劣对于文本分类的结果具有非常大的影响。所以选择效果好的特征提取算法是文本分类前中很重要的步骤。于是这篇就对卡方检验做一个介绍。这是一个效果很好的特征提取方法。

之前对卡方检验做过介绍：卡方检验是通过对特征进行打分然后排序，选择排名靠前的特征来表示文本。

目录：

文本分类学习（一）开篇
文本分类学习（二）文本表示
文本分类学习（三）特征权重（TF/IDF）和特征提取　　
文本分类学习（四）特征选择之卡方检验

一：卡方检验的介绍

1.接下来简单介绍一下卡方检验：

（官方定义）

卡方检验是以χ2分布为基础的一种常用假设检验方法，它的无效假设H0是：观察频数与期望频数没有差别。该检验的基本思想是：首先假设H0成立，基于此前提计算出χ2值，它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果当前统计量大于P值，说明观察值与理论值偏离程度太大，应当拒绝无效假设，表示比较资料之间有显著差异；否则就不能拒绝无效假设，尚不能认为样本所代表的实际情况和理论假设有差别。（摘自智库百科）

（通俗的来讲）

卡方检验的思想是通过观察值和理论值之间的偏差来判断理论值的正确率是多少。如果正确率很大我们就认为理论值是正确的。所以我们一开始要设定一个理论值，这个理论值是我们根据自己的假设计算而来。

2.卡方检验的基本公式：

卡方检验的基本公式，也就是χ2的计算公式，也就是观察值和理论值之间的偏差

先介绍下这个公式是如何得来的吧

其中A代表观察频数（就是观察值），E代表期望频数（就是理论值，我们一开始做的那个假设得到的值）

那么第一步，观察值和理论值之间的偏差，就是二者的差。将多个观察值和理论值的偏差求和

这样确实可以表示偏差，但是多个观察值和理论值，且差值有正有负，那么就会相互抵消，如果抵消为0，本来有偏差的，现在变成没有偏差了。所以第二步，加上平方之后再求和

这样确实可以表示偏差，但是多个观察值和理论值，且差值有正有负，那么就会相互抵消，如果抵消为0，本来有偏差的，现在变成没有偏差了。于是第三步，在平之后再除以理论值之后再求和，这样不会因为理论值的大小而影响偏差的计算了

越是得到了最终χ2的计算公式。再回到这个式子：

A 为观

最低0.47元/天解锁文章

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。