特征选择,熵,条件熵,信息增益

特征选择,熵,条件熵,信息增益

特征选择

特征选择是在于选取能够提高分类器学习效率的特征。对于没有分类能力的特征,经验上扔掉这样的特征对最终的分类结果并没有什么大影响。
通常特征选择的准则是信息增益或信息增益比

例子

在这里插入图片描述
上表是有15个样本组成的贷款申请训练数据,数据包含贷款申请人的4个特征(年龄,是否有工作, 是否有自己的房子,信贷情况),最后一列是类别。特征选择是决定用哪个特征来划分特征空间,选择哪个特征作为根节点,可能的情况:
在这里插入图片描述
直观上,如果一个特征具有更好的分类能力,或者说按照这一特征将训练数据集分割成子集,使得各个子集在当前条件下有最好的分类,那么就更应该选择这个特征,信息增益就能够很好的表示这一直观的准则。

信息论中,熵表示信息的不确定性,设 X X X是一个取有限个值的离散随机变量,其概率分部是:
P ( X = x i ) = p i , ( i = 1 , 2 , . . . n ) P(X = x_i)=p_i,(i=1, 2, ...n) P(X=xi)=pi,(i=1,2,...n)
熵就是 H ( X ) = − ∑ i = 1 n p i l o g p i

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值