决策树

决策树是一类常见的机器学习方法。在分类问题中,表示基于属性对新的示例进行分类的过程。它呈树形结构,包含一个根节点,若干个内部节点和若干个叶节点。

决策树的分类从根节点开始,对实例的某一属性进行测试后分配到子节点中,直至不能再分,到达叶节点。

学习目标是根据给定的训练数据集建造一个决策树模型,使其能对实例进行正确的分类。

决策树学习通常包含以下几个步骤:划分选择、决策树的生成、剪枝处理、缺失值处理。

决策树学习的关键是如何选择最优划分属性,使其分支节点所包含的样本最大可能的属于同一类别,也即节点的“纯度”越来越高。

熵是度量样本集合纯度最常用的一种指标,表示的是随机标量不确定性的度量。定义为

H\left ( X \right )=-\sum_{i=1}^{n}p_{i}log p_{i}

熵越大,随机变量的不确定性就越大,则纯度越低。

信息增益(information gain)表示得知属性a的信息而使得样本集D的信息的不确定性减少的程度。信息增益越大,纯度越大。

 Gain\left ( D,a \right )=H\left ( D \right )-\sum_{v=1}^{V}\frac{D^{v}}{\left | D \right |}H\left ( D^{v} \right )

即属性a有V个取值\left \{ a^{1},a^{2},...,a^{V} \right \},产生V个分支节点,D^{v}为在属性a上取值为a^{v}的样本。

但信息增益对可取值数目较多的属性有所偏好,使用信息增益比(information gain ratio)可进行校正,定义为

Gain\,ratio=\frac{Gain\left ( D,a \right )}{H_{a}\left ( D \right )},        其中 H_{a}\left ( D \right )=-\sum_{v=1}^{V}\frac{\left | D^{v} \right |}{\left | D \right |}log_{2}\frac{\left | D^{v} \right |}{\left | D \right |} 

增益比对可取值数目较少的属性有偏好,因此C4.5算法中先从候选属性中找出信息增益高于平均水平的属性,再从中选择增益比最高的。

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值