决策树(下)
CART算法,用于分类、回归
一、概述
整个决策树模型生成由:特征选择、决策树生成、剪枝,三步完成。
CART决策树是二叉树。
CART算法由以下两步组成:
(1)决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大;
(2)决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损 失函数最小作为剪枝的标准。
决策树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则, 对分类树用基尼指数(Gini index)最小化准则,进行特征选择,生成二叉树。
(1)回归树:
生成:
对训练集中的每个数据作为切分点,以下面公式计算一次损失,找到损失最小的点作为切分点。如此循环直到满足要求。

对切分后的单元的值设置为单元内所有数据点的平均值。
![]()
(2)分类树:
遍历训练集数据中的所有输入数据的特征和取值,将其作为分隔条件分成两类D1和D2。计算对应特征取值下的条件基尼指数,取所有基尼指数最小的特征值作为分隔条件对数据集进行分类,如此循环直到满足条件。
![]()
p为特征取对应值得概率。将所有不满足条件的数据都算为另一个类概率为1-p

本文详细介绍了CART算法在决策树中的应用,包括回归树和分类树的生成过程。CART算法通过平方误差最小化准则构建回归树,基尼指数最小化准则构建分类树。此外,还探讨了决策树的剪枝策略,以降低过拟合风险,提高模型泛化能力。
最低0.47元/天 解锁文章
218

被折叠的 条评论
为什么被折叠?



