Tom机器学习笔记

最新推荐文章于 2020-10-16 10:43:56 发布

coker

最新推荐文章于 2020-10-16 10:43:56 发布

阅读量981

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/coker/article/details/4472558

版权

2 篇文章 0 订阅

订阅专栏

第三章决策树学习

从样本数据中归纳出因果关系，以树的形式表示，用来对未知样本进行决策。

决策树实际上根据不同的影响因素对决策进行分类的方法。

学习者是以观察者的角度来学习决策，而决策本身是一种黑盒行为，涉及：

1. 影响决策的参数提取

2. 对参数和相应的决策进行分类归纳

3. 用学习到的树来进行决策，扮演黑盒的角色

适用范围：参数属性值和决策值均为离散量的情况

（TODO:想一个很恰当的例子）

核心问题：参数（具有不同的属性值）排序，这里涉及熵和信息增益的概念

熵衡量的是均衡度，Shannon定义的公式满足了描述熵的必备条件（没有更好的公式？）：

H = -	∑	p _i logp _i
	i

1. 单一化时，熵为0. 以布尔为例，只有1或者0时，熵为0。

2. 均衡化时，熵最大，以布尔为例，1和0各一半时，熵最大。

而信息增益衡量的是分类后（熵降后）的熵，熵越大，意味着分类能力越强。

TODO:看Shannon的《A Mathematical Theory of Communication》

关注

专栏目录