学习打卡内容:
-
阅读《李航统计学习方法》的65-74页
-
学习Gini指数
-
学习回归树
-
剪枝
前面任务八里面我们已经了解到策树以及决策树的几种算法如
-
ID3算法
-
C4.5算法
我们已经了解,在生成了决策树之后,可能发生过拟合现象,我们需要对已经生成的树自下而上进行剪枝,将树变得更简单,从而使它具有更好的泛化能力。具体来说,就是去掉过于细分的叶节点,使其回退到父节点,甚至更高的节点,然后将父节点或者更高的节点改为新的叶节点。
可以看出,决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程.由于决策树表示一个条件概率分布,所以深浅不同的决策树对应着不同复杂度的概率模型.决策树的生成对应于模型的局部选择,决策树的剪枝对应于模型的全局选择.决策树的生成只考患局部最优,相对地,决策树的剪枝则考虑全局最优.
那么今天我们来了解CART(Classification and regression tree)算法,该模型由Breiman等人在1984年提出,是应用广泛的决策树学习方法,CART同样由特征选择、树的生成及剪枝组成,既可以用于分类也可以用于回归.
CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法. CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,左分支是取值为“是”的分支,右分支是取值为“否”的分支这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测的概率分布,也就是在输入给定的条件下输出的条件概率分布。
Cart算法由两部组成:
- 决策树生成:基于训练数据生成决策树,生成的决策树要尽量大;
- 决策树剪枝:用验证数据集对已生成的书进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准
CART树分类:
- 目标变量是类别型——分类树:Gini指数
- 目标变量是连续型——回归树:平方误差最小化
基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a分割后集合D的不确定性.基尼指数值越大,样本集合的不确定性也就越大,这一点与熵相似.
现在我们再来看CART回归树的生成,即(Least Squares regression tree)最小二成回归树生成:
在生成回归树之后,我们现在来看树的剪枝,CART树的剪枝和前面所讲的两种算法的剪枝不同:
参考资料:
李航《统计学习方法》