决策树

最新推荐文章于 2022-11-21 14:37:44 发布

devinwood

最新推荐文章于 2022-11-21 14:37:44 发布

阅读量257

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/devinwood/article/details/78011579

版权

机器学习专栏收录该内容

15 篇文章 0 订阅

订阅专栏

决策树是一种树形结构，其中的每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。它是以实例为基础的归纳学习，采用自顶向下的递归方法，基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点的熵值为零，此时每个叶节点中的实例都属于同一类。在学习过程中，仅需对训练实例做较好的标注，算法就能进行自学习，决策树算法的代码清晰，逻辑简单，在胜任分类问题的同时，往往也作为对数据分布探索的首要尝试算法。

建立决策树的关键，即在当前状态下选择的哪个属性作为分类依据，根据不同的目标函数建立决策树主要有以下三种算法。

ID3

ID3（Iterative Dichotomiser）是利用信息增益（互信息） $g(D,A)$ 进行特征选择。

信息增益 $g(D,A)$ 表示已知特征A使得数据集D的不确定性降低的程度。定义为集合D的经验熵与特征A给定下D的经验条件熵之差，即：

g (D, A) = H (D) - H (D | A)

$g(D,A) = H(D) - H(D|A)$
显然，数据集D与特征A的信息增益即为二者的互信息。

信息增益的计算方法：
1、计算数据集D的经验熵

H (D) = - \sum k = 1 K | C k | | D | l o g | C k | | D |

$H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|}$
其中，

K $K$ 表示类别个数，

|D| $|D|$ 表示样本个数，

Ck $C_k$ 表示第k类数据集样本个数。
2、遍历所有特征，对特征A：
1>计算特征A对数据集D的经验条件熵

① $^①$

H (D | A) = - \sum n = 1 N | D n | D \sum k = 1 K | D n k | | D n | l o g | D n k | | D n |

$H(D|A)=-\sum_{n=1}^N\frac{|D_n|}{D}\sum_{k=1}^K\frac{|D_{nk}|}{|D_n|}log\frac{|D_{nk}|}{|D_n|}$
其中，

N $N$ 表示特征A的取值个数，

Dnk $D_{nk}$ 表示特征A取第n个值时属于第k类的数据集样本个数。
2>计算A的信息增益：

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$
信息增益越大,表明属性对熵减少的能力越强，属性使数据由不确定性变为确定的能力越强，该特征则优先作为分裂属性。

C4.5

C4.5是利用信息增益率 $g_r(D,A)=g(D,A)/H(A)$ 做特征选择，同样，信息增益率越大的特征优先作为分裂属性。

CART

CART（Classification And Regression Tree）是利用基尼指数做特征选择，是通过优化熵来计算信息增益。
基尼指数使用 $-ln\,x$ 在 $x=1$ 处的一阶泰勒展开 $1-x$ 近似。
令 $p_k=\frac{|C_k|}{|D|}$
则

H (D) = - \sum k = 1 K p k l o g p k \approx \sum k = 1 K p k (1 - p k) = 1 - \sum k = 1 K p 2 k

$H(D)=-\sum_{k=1}^Kp_k\;log\,p_k\approx\sum_{k=1}^Kp_k(1-p_k)=1-\sum_{k=1}^Kp_k^2$
同理可得到H(D|A)，同样，基尼指数越大的特征优先作为分裂属性。

决策树的评价

通过对所有叶节点的熵求和，该值越小说明对样本的分类越精确。
由于各节点包含的样本数可能不同，所以也使用样本数加权求熵和。

评价函数：

C (t) = \sum t \in l e a f N t H (t)

$C(t)=\sum_{t\in leaf}N_tH(t)$

Nt $N_t$ 表示某一个叶节点的样本点，

H(t) $H(t)$ 表示该叶节点的熵值，该评价函数越小越好，所以也可以作为损失函数。

剪枝

有时候过多的考虑对训练样本的正确分类，会导致决策树过拟合，从而构建过于复杂的决策树。解决这个问题的办法是考虑决策树的复杂度，从而简化决策树。

在决策树学习中简化已生成的树的方法称为剪枝（pruning）。剪枝是在已生成的树上裁掉一些子树或叶节点。剪枝也分为前剪枝与后剪枝，前剪枝是在生成树之前就定义了树的高度，或单个叶节点样本个数或叶节点熵值。后剪枝是通过极小化决策树整体的损失函数来实现。

由于叶节点数越多表示决策树越复杂，于是对损失函数引入剪枝系数 $\alpha$ 做修正：

C α (t) = \sum t \in l e a f N t H (t) + α | T l e a f |

$C_\alpha(t)=\sum_{t\in leaf}N_tH(t)+\alpha|T_{leaf}|$

Tleaf $T_{leaf}$ 表示叶节点的样本点，当

α=0 $\alpha=0$ ，未剪枝的决策树损失最小，当

α=∞ $\alpha=\infty$ ，单根节点的决策树损失最小。

$\alpha$ 可理解成树分支被裁剪后的误差增加率，假设对以r为根的子树剪枝，剪枝后只保留根节点r，剪枝后的损失函数为：

C α (r) = c (r) + α

$C_\alpha(r)=c(r)+\alpha$
剪枝前的损失函数为：

C α (R) = c (R) + α | R l e a f |

$C_\alpha(R)=c(R)+\alpha|R_{leaf}|$
令二者相等，则得到剪枝系数

α = C ( r ) - C ( R ) | R l e a f - 1 |

$\alpha=\frac{C(r)-C(R)}{|R_{leaf}-1|}$

devinwood

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
决策树

决策树是一种树形结构，其中的每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。它是以实例为基础的归纳学习，采用自顶向下的递归方法，基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点的熵值为零，此时每个叶节点中的实例都属于同一类。在学习过程中，仅需对训练实例做较好的标注，算法就能进行自学习。
复制链接

扫一扫