读书笔记:机器学习(第4章)

 一、两种不同的叶子结点

  • 当前属性集为空,或是所有样本在所有属性上取值相同,无法划分,在这种情形下,我们把当前结点标记为叶结点
    • 将其类别设定为该结点所含样本最多的类别
    • 这是在利用当前结点的后验分布
  • 当前结点包含的样本集合为空,不能划分,在这种情形下,把当前结点标记为叶结点
    • 将其类别设定为其父结点所含样本最多的类别
    • 这是把父结点的样本分布作为当前结点的先验分布

二、信息增益(Information gain)怎么来的

信息熵(Information entropy)的定义

Ent(D)=-\sum_{k=1}^{\left | y \right |}p_{k}log_{2}p_{k},其中p_{k}表示当前样本集合D中第k类样本所占的比例,Ent(D)的值越小,D的纯度越高

信息增益

定义:假设在属性a上对样本集D进行划分,从总的信息熵到各个分支结点信息熵加权和的差值,就是“属性a对样本集D进行划分所获得的信息增益”

计算:Gain(D,a)=Ent(D)-\sum_{v=1}^{V}\frac {\left | D^{v} \right |}{\left | D \right |}Ent(D^{v})

代表:ID3

三、信息增益率(Information gain ratio)怎么来的

信息增益准则对可取值数目较多的属性有所偏好,为了减小这种偏好可能带来的不利影响,就要对可取值数目较多的属性进行惩罚,即

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值