机器学习—信息增益

机器学习—信息增益

 

举例说明:如果有8位同学,男生3位,女生5位。 如果用头发,和声音判断男女,那么头发长判断完,在判断声音细好呢?还是用声音细先判断,在用头发长判断好呢?这个头发,声音就是“熵”,那么两种判断方法就是两种“信息增益”,需要计算它,比较哪个信息增益的值更大,意味着用这个属性来进行划分所获得的“纯度提升”越大,方知哪种更好。

首先计算未分类前的熵 :熵(总)=-3/8*log2(3/8)-5/8*log2(5/8)=0.9544 

先按A头发分类,分类后的结果为:长头发中有1男3女。短头发中有2男2女。

熵(A长发)=-1/4*log2(1/4)-3/4*log2(3/4)=0.8113

熵(A短发)=-2/4*log2(2/4)-2/4*log2(2/4)=1

熵(A)=4/8*0.8113+4/8*1=0.9057

信息增益(同学A)=熵(总)-熵(A)=0.9544-0.9057=0.0487

再按B声音特征来分,分类后的结果为:声音粗中有3男3女。声音细中有0男2女。

熵(B声音粗)=-3/6*log2(3/6)-3/6*log2(3/6)=1

熵(B声音粗)=-2/2*log2(2/2)=0

熵(B)=6/8*1+2/8*0=0.75

信息增益(B)=熵(总)-熵(A)=0.9544-0.75=0.2087

按B的方法,先按声音特征分类,信息增益更大,区分样本的能力更强,更具有代表性。

 

原文链接:https://www.jianshu.com/p/3f3caebb7e7a

 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值