
一、公式
卡方检验的基本公式,也就是χ2的计算公式,即观察值和理论值之间的偏差

其中:A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际上就是具体计算的方法了 n 为总的频数,p为理论频率,那么n*p自然就是理论频数(理论值)
二、相关概念
卡方分布:可以看出当观察值和理论值十分接近的时候,也就是我们做的假设是正确的时候,χ2的值就越趋近于0,也就是说我们计算的偏差越小,那么假设值就越可能是对的,反之偏差值越大,假设值就越不准确。那么到底多大才算不准确,有没有个衡量的数值标准呢?答案是有:卡方分布。
卡方检验是以χ2分布为基础的一种常用假设检验方法。若k 个随机变量Z1、……、Zk 相互独立,且数学期望为0、方差为 1(即服从标准正态分布),则随机变量X被称为服从自由度为 k 的卡方分布,记作

,卡方分布的公式为:

自由度:自由度指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k

本文介绍了机器学习中的特征选择,重点讲解了如何使用卡方检验进行特征选择。卡方检验通过计算特征与目标变量的偏差来评估特征的重要性,值越大表示相关性越高。在实际应用中,可以通过卡方检验的得分排序来选取最具预测能力的特征。文中还给出了Spark MLlib中ChiSqSelector的使用示例,展示了如何训练模型并选择最优特征。
最低0.47元/天 解锁文章
1339

被折叠的 条评论
为什么被折叠?



