文本分类特征选取之CHI开方检验

最新推荐文章于 2022-07-04 10:16:39 发布

九霄王

最新推荐文章于 2022-07-04 10:16:39 发布

阅读量324

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_42631192/article/details/88977949

版权

123 篇文章 6 订阅

订阅专栏

通过观察实际值与理论值的偏差来确定理论的正确与否。

具体做的时候常常先
（1）假设两个变量确实是独立的（行话就叫做“原假设”），
（2）然后观察实际值（也可以叫做观察值）与理论值（这个理论值是指“如果两者确实独立”的情况下应该有的值）的偏差程度。

如果偏差足够小，我们就认为误差是很自然的样本误差，是测量手段不够精确导致或者偶然发生的，两者确确实实是独立的，此时就接受原假设；如果偏差大到一定程度，使得这样的误差不太可能是偶然产生或者测量不精确所致，我们就认为两者实际上是相关的，即否定原假设，而接受备择假设。
那么用什么来衡量偏差程度呢？
假设理论值为E（这也是数学期望的符号哦），实际值为x，如果仅仅使用所有样本的观察值与理论值的差值x-E之和：
来衡量，单个的观察值还好说，当有多个观察值x1，x2，x3的时候，很可能x1-E，x2-E，x3-E的值有正有负，因而互相抵消，使得最终的结果看上好像偏差为0，但实际上每个都有偏差，而且都还不小！此时很直接的想法便是使用方差代替均值，这样就解决了正负抵消的问题，即使用：

在这里插入图片描述

这时又引来了新的问题，对于500的均值来说，相差5其实是很小的（相差1%），而对20的均值来说，5相当于25%的差异，这是使用方差也无法体现的。因此应该考虑改进上面的式子，让均值的大小不影响我们对差异程度的判断：

在这里插入图片描述式（1）

上面这个式子已经相当好了。实际上这个式子就是开方检验使用的差值衡量公式。当提供了数个样本的观察值x1，x2，……xi ，……xn之后，代入到式（1）中就可以求得开方值，用这个值与事先设定的阈值比较，如果大于阈值（即偏差很大），就认为原假设不成立，反之则认为原假设成立。

如果独立，就可以说词t对类别c完全没有表征作用，即我们根本无法根据t出现与否来判断一篇文档是否属于c这个分类。但与最普通的开方检验不同，我们不需要设定阈值，因为很难说词t和类别c关联到什么程度才算是有表征作用，我们只想借用这个方法来选出一些最最相关的即可。
此时我们仍然需要明白对特征选择来说原假设是什么，因为计算出的开方值越大，说明对原假设的偏离越大，我们越倾向于认为原假设的反面情况是正确的。 我们能不能把原假设定为“词t与类别c相关“？
原则上说当然可以,但此时你会发现根本不知道此时的理论值该是多少！你会把自己绕进死胡同。选择的过所以我们一般都使用**”词t与类别c不相关**“来做原假设。计算过程也变成了为每个词计算它与类别c的开方值，从大到小排个序（此时开方值越大越相关），取前k个就可以。
好，原理有了，该来个例子说说到底怎么算了。

关注