第三章 决策树学习
从样本数据中归纳出因果关系,以树的形式表示,用来对未知样本进行决策。
决策树实际上根据不同的影响因素对决策进行分类的方法。
学习者是以观察者的角度来学习决策,而决策本身是一种黑盒行为,涉及:
1. 影响决策的参数提取
2. 对参数和相应的决策进行分类归纳
3. 用学习到的树来进行决策,扮演黑盒的角色
适用范围:参数属性值和决策值均为离散量的情况
(TODO:想一个很恰当的例子)
核心问题:参数(具有不同的属性值)排序,这里涉及熵和信息增益的概念
熵衡量的是均衡度,Shannon定义的公式满足了描述熵的必备条件(没有更好的公式?):
H = - | ∑ | p i logp i |
i |
1. 单一化时,熵为0. 以布尔为例,只有1或者0时,熵为0。
2. 均衡化时,熵最大,以布尔为例,1和0各一半时,熵最大。
而信息增益衡量的是分类后(熵降后)的熵,熵越大,意味着分类能力越强。
TODO:看Shannon的《A Mathematical Theory of Communication》