机器学习特征选择之卡方检验与互信息

by wangben  @ beijing


特征选择的主要目的有两点:

1.      减少特征数量提高训练速度,这点对于一些复杂模型来说尤其重要

2.      减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化(generalization),从而在测试集中表现较差。另外从模型复杂度的角度来看,特征越多模型的复杂度越高,也就越容易发生overfitting。


互信息(Mutual information)和卡方检验(chisquare)是两种比较常用的特征选择方法:

互信息

互信息是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量,具体的计算公式为:


其中U、C代表两个事件,e的取值可以为0或者1,1代表出现这个事件,0代表不出现。

把上述公式拆解为统计形式为:

  • 2
    点赞
  • 40
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值