CART(分类回归树)之回归树总结与树剪枝总结
CART(Classification And Regression Trees,分类回归树)与分类算法中决策树ID3算法最大的不同点在于,决策树是一种贪心算法,其要在给定时间内做出最佳选择,但并不关心能否到达全局最优,不能直接处理连续型特征,且决策树特征切分份数由该特征值份数决定;分类回归树采用二元切分法(符合阈值条件进入左子树,否则进入右子树)来处理连续型变量,其不仅可以用于分类,还可以用于回归。
通过遍历数据集中所有特征及各个特征的所有特征值,根据每个特征值进行二元切分,计算切分后误差(一般取叶子结点数值的方差和),取最小误差对应取值作为切分阈值,进行迭代,得到各个树节点对应切分特征与切分阈值。如果最后特征值数目为1或新切分后误差与当前误差比较减小不大或切分出数据集很小,则退出切分,返回叶子节点或返回切分特征或切分特征值。
剪枝(pruning)
剪枝处理是为了防止树过拟合,其又有预剪枝和后剪枝之分。
预剪枝操作的一种为之前所属的根据切分数据集大小限制和新切分后误差与当前误差比较容限来提前终止切分。
后剪枝操作是通过比较叶子节点合并前后误差大小来进行,如果叶子结点合并后误差小于合并前,则进行剪枝,两个叶子节点合并,否则不合并(不进行剪枝操作)。
以后有时间补例程。