0 背景
还是老师的文本分类的大作业。。。在对文本数据集分词并且除去停用词以后,我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多,在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是没有白学的。。。
1 CHI检验基础
卡方检定一个应用的场景是独立性检验。
“独立性检定”验证从两个变数抽出的配对观察值组是否互相独立(例
如:每次都从A国和B国各抽一个人,看他们的反应是否与国籍无关)。参考维基百科的皮尔森卡方检定,独立性检验的步骤如下:
1)计算卡方检定的统计值“
”:把每一个观察值和理论值的差做平方后、除以理论值、再加总。