笔记_决策树

最新推荐文章于 2024-08-20 20:57:00 发布

CZYruobing

最新推荐文章于 2024-08-20 20:57:00 发布

阅读量90

点赞数

分类专栏：统计学习文章标签：决策树剪枝算法

本文链接：https://blog.csdn.net/CZYruobing/article/details/115495900

版权

统计学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文详细介绍了决策树的学习过程，包括ID3和C4.5算法，以及如何利用信息增益和信息增益比选择特征。讨论了决策树过拟合的问题，并提出了解决方案——决策树剪枝，通过损失函数最小化来优化模型。同时，介绍了CART算法在生成分类和回归树上的应用。剪枝过程中，通过计算不同子树的损失函数，形成子树序列，并通过交叉验证选择最优子树。最后，强调了决策树生成与剪枝分别对应局部和全局选择的重要性。

摘要由CSDN通过智能技术生成

决策树学习算法

特征选择

信息增益

定义为：集合D的经验熵H(D）与特征A给定条件下D的经验条件熵H(D|A)之差，即
g(D,A) = H(D) - H(D|A)

信息增益比

定义为：信息增益g(D,A)与训练数据集D的经验熵 H(D)之比
$g_R(D,A)$ = g(D,A) / H(D)

决策树的生成

ID3

在决策树的各个节点上应用信息增益准则选择特征

C4.5

在决策树的各个节点上应用信息增益比准则选择特征

问题

决策树生成算法递归的产生决策树，对训练数据的分类很明确，但是对未知的数据的分类却没有那么准确，也就是会产生过拟合现象

解决方案

决策树的剪枝

极小化决策树整体的损失函数
$C_α(T)$ = C(T) + α|T|
C(T) : 表示模型对数据的拟合程度
|T| ：模型的复杂度
α ：平衡拟合程度和复杂度

算法步骤

1）计算每个节点的经验熵
2）递归的从树的叶节点网上缩
设一组叶节点回缩到其父节点之前与之后的整体树分别为 $T_B$ 和 $T_A$ ,其对应的损失函数8值分别为 $C_α(T_B)$ 和 $C_α(T_A)$ ，若
$C_α(T_A)$ < $C_α(T_B)$
则进行剪枝，即将父节点变为新的叶节点
3）返回2），直至不能继续为止，得到损失函数最小的子树 $T_α$

CART（分类与回归树）

决策树的生成

基于训练集生成决策树，决策树尽可能大

回归树的生成

采用平方差最小化准则，进行特征选择

分类书的生成

采用基尼指数最小化准则，进行特征选择

决策树的剪枝

基于验证集对已生成的树进行剪枝并选择最优子树，这是使用损失函数最小（比如：平方误差或者基尼指数）作为剪枝的标准

剪枝，形成一个子树序列

计算子树的损失函数 $C_α(T)$ = C(T) + α|T|
具体：
从整体树 $T_0$ 开始剪枝，对 $T_0$ 的任意内部节点t，以t为单节点树的损失函数是
$C_α(T)$ = C(t) + α

以t为根节点的子树 $T_t$ 的损失函数是
$C_α(T_t)$ = C(T_t) + α|T_t|

当α =0 及α充分小时，
$C_α(T_t)$ < $C_α(t)$

当α 增大时，在某一α有
$C_α(T_t)$ = $C_α(t)$

当α再增大时，只要α = （C(t) - $C(T_t)$ ）/ (|T| - 1)， $T_t$ 与t有相同的损失函数值，而t的节点少，所以t比 $T_t$ 更可取，对 $T_t$ 剪枝，为此对 $T_0$ 中每一内部节点t，计算
g(t) = （C(t) - $C(T_t)$ ）/ (|T| - 1)
表示剪枝后整体损失函数减少的成都，在 $T_0$ 中减去g(t)最小的 $T_t$ ，将得到的子树作为 $T_1$ ， $T_1$ 为区间$[α _1,α _2)的最优子树。
如此剪枝下去，直到得到根节点，在这一过程中，不断增加α 值，产生新的区间

在剪枝得到的子树序列 $T_0,T_1,...,T_n$ 中通过交叉验证选取最优子树 $T_α$

补充

决策树的生成对应模型的局部选择（局部最优），决策树的剪枝对应于模型的全局选择（全局最优）

文献
李航_统计学习_决策树

CZYruobing

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
笔记_决策树

决策树学习算法特征选择信息增益定义为：集合D的经验熵H(D）与特征A给定条件下D的经验条件熵H(D|A)之差，即g(D,A) = H(D) - H(D|A)信息增益比定义为：信息增益g(D,A)与训练数据集D的经验熵 H(D)之比gR(D,A)g_R(D,A)gR(D,A) = g(D,A) / H(D)决策树的生成ID3在决策树的各个节点上应用信息增益准则选择特征C4.5在决策树的各个节点上应用信息增益比准则选择特征问题决策树生成算法递归的产生决策树，对训练数据的分类很明确
复制链接

扫一扫