决策树

最新推荐文章于 2024-10-01 19:47:06 发布

mxYlulu

最新推荐文章于 2024-10-01 19:47:06 发布

阅读量209

点赞数

分类专栏：机器学习文章标签：决策树

本文链接：https://blog.csdn.net/mxYlulu/article/details/106388959

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

源自西瓜书

基本流程

训练集 $D=\{(x_1,y_1),(x_2,y_2),...,(x_m,y_m)\}$
属性集 $A=\{a_1,a_2,...,a_d\}$
过程：
生成结点 $n o d e$ ;
$if\ D$ 中样本全部属于类别 $C\ then$
将 $n o d e$ 标记为 $C$ 类叶结点； $r e t u r n$
$end\ if$
$A=∅\ or\ D$ 中样本在 $A$ 上取值相同 $t h e n$
将 $n o d e$ 标记为叶结点，其类别标记为 $D$ 中样本数最多的类。 $r e t u r n$
$end\ if$
从 $A$ 中选择最优划分属性 $a_*$ ；
$for\ a_*$ 的每一个值：
$\quad$ 为 $n o d e$ 生成一个分支， $D_v$ 表示 $D$ 在 $a_*$ 上取值为 $a_*^v$ 的样本子集；
$\quad if\ D_v$ 为空 $\ then$
$\quad\quad$ 将分支结点标记为叶结点，其类别为 $D$ 中样本最多的类； $r e t u r n$
$\quad else$
$\quad\quad$ 以 $Tree(D_v,A-\{a_*\})$ 为分支结点。
$\quad end\ if$
$end\ for$

注意

决策树的生成是一个递归过程，三种情况会导致递归返回：
$1$ 当前结点包含的样本属于同一类别
$2$ 当前结点的属性集为空，或者所有样本在所有属性取值相同，无法划分。
$3$ 当前节点包含的样本集合为空

$2$ 和 $3$ 都是把当前 $D$ 中最多的类别作为当前结点的决策，但 $2$ 做的是已知样本特征(结果)，求引起特征的类别(原因)，即后验分布， $3$ 即是通过父节点的样本分布，作为其先验分布，对未知进行预测。

划分选择

关键在于如何找出最优划分属性
随着划分的不断进行，我们希望决策树的分支结点包含的样本尽可能属于同一类别，即结点的纯度越来越高。

信息增益

是度量样本集合纯度最常用的一种指标。
$Ent(D)=-\sum p_klog_2p_k$ ， $p_k$ 为样本集合 $D$ 中第 $k$ 类样本所占的比例。
$E n t$ 越小，样本纯度越高。

对于每个类别，我们设置权重，因为样本数越多显然影响越大。
最终用属性 $a$ 划分的信息增益
$Gain(D,a)=Ent(D)-\sum\frac{|D_v|}{|D|}Ent(D_v)$
$a_*=\mathop{\argmax}\limits_{a \in A} Gain(D,a)$

$I D 3$ 就是使用了这样的方法。
缺点是什么呢，可能会对取值数目较多的属性有偏好，产生不利影响。

信息增益率

$C 4.5$ 算法不直接使用信息增益，而是使用增益率。
$Gain\_ratio(D,a)=\frac{Gain(D,a)}{IV(a)}$
$IV(a)=-\sum\frac{|D_v|}{|D|}log_2\frac{|D_v|}{D}$ ，其表示属性取值越多，其值越大。
显然增益率对属性取值较少的有偏好，所以 $C 4.5$ 用了一个启发式算法：
先从候选划分属性中找出信息增益高于平均水平的属性，再从中选取增益率最高的。