信息增益计算

* 信息增益原理

“熵”:一个物理学概念,表示“一个系统的混乱程度”。系统的不确定性越高,熵就越大

集合D种第k类样本所占比例为pk , 则D的信息熵定义为:

img

img的值越小,则D的纯度越高

链接:里面举的例子特别好 https://blog.csdn.net/it_beecoder/article/details/79554388

 

当给出一个样本的时候,通过属性a or b 对样本集D进行划分,目的是确认哪一个属性对正负样本的影响更大?

这个时候就要计算<属性a>和<属性b> 的信息增益 。

tip:《机器学习》 P75

这个时候,属性a 的信息增益越大,则意味着使用属性a 分析样本 获得的“纯度”最高 ,也就是正样本最大

例如:正样本是 瓜甜 ,负样本是瓜不甜 <属性a> 是色泽 :0.5 <属性b>是敲声:0.4

>此时 说用属性a可以更好反映瓜甜

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值