Tom机器学习笔记

第三章 决策树学习

 

从样本数据中归纳出因果关系,以树的形式表示,用来对未知样本进行决策。

决策树实际上根据不同的影响因素对决策进行分类的方法。

 

学习者是以观察者的角度来学习决策,而决策本身是一种黑盒行为,涉及:

1. 影响决策的参数提取

2. 对参数和相应的决策进行分类归纳

3. 用学习到的树来进行决策,扮演黑盒的角色

 

适用范围:参数属性值和决策值均为离散量的情况

 

(TODO:想一个很恰当的例子)

 

核心问题:参数(具有不同的属性值)排序,这里涉及熵和信息增益的概念

熵衡量的是均衡度,Shannon定义的公式满足了描述熵的必备条件(没有更好的公式?):

H = - p i logp i

i

1. 单一化时,熵为0. 以布尔为例,只有1或者0时,熵为0。

2. 均衡化时,熵最大,以布尔为例,1和0各一半时,熵最大。

而信息增益衡量的是分类后(熵降后)的熵,熵越大,意味着分类能力越强。

 

TODO:看Shannon的《A Mathematical Theory of Communication》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值