用CHI检验提取文本特征词

0 背景


        还是老师的文本分类的大作业。。。在对文本数据集分词并且除去停用词以后,我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多,在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是没有白学的。。。

1  CHI检验基础

    卡方检定一个应用的场景是独立性检验。 “独立性检定”验证从两个变数抽出的配对观察值组是否互相独立(例 如:每次都从A国和B国各抽一个人,看他们的反应是否与国籍无关)。参考维基百科的皮尔森卡方检定,独立性检验的步骤如下:
  1)计算卡方检定的统计值“  \chi^2  ”:把每一个观察值和理论值的差做平方后、除以理论值、再加总。
  2)计算  \chi^2  统计值的 自由度 df ”。
  3)依据研究者设定的 置信水准 查出自由度为 
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值