机器学习(十五) 特征选择-卡方选择器

本文介绍了机器学习中的特征选择,重点讲解了如何使用卡方检验进行特征选择。卡方检验通过计算特征与目标变量的偏差来评估特征的重要性,值越大表示相关性越高。在实际应用中,可以通过卡方检验的得分排序来选取最具预测能力的特征。文中还给出了Spark MLlib中ChiSqSelector的使用示例,展示了如何训练模型并选择最优特征。
摘要由CSDN通过智能技术生成

卡方选择器

一、公式

卡方检验的基本公式,也就是χ2的计算公式,即观察值和理论值之间的偏差

卡方检验公式

其中:A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际上就是具体计算的方法了 n 为总的频数,p为理论频率,那么n*p自然就是理论频数(理论值)

二、相关概念

卡方分布:可以看出当观察值和理论值十分接近的时候,也就是我们做的假设是正确的时候,χ2的值就越趋近于0,也就是说我们计算的偏差越小,那么假设值就越可能是对的,反之偏差值越大,假设值就越不准确。那么到底多大才算不准确,有没有个衡量的数值标准呢?答案是有:卡方分布。

卡方检验是以χ2分布为基础的一种常用假设检验方法。若k 个随机变量Z1、……、Zk 相互独立,且数学期望为0、方差为 1(即服从标准正态分布),则随机变量X被称为服从自由度为 k 的卡方分布,记作

卡方分布

,卡方分布的公式

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值