(一)简介
1.CART(classification and regression tree)是应用广泛的决策树学习方法,既可以用于分类也可以用于回归;
2.CART假设决策树是二叉树,内部结点特征的取值为“是”和“否”,这样的决策树等价于递归地二分每个特征,将输入空间即特征空间划分为有限个单元,并在这些单元上确定预测值或者类别;
(二)回归树
1.一个回归树对应着特征空间的一个划分以及在划分的单元上的输出值;假设已将输入空间划分为M个单元,并且在每个单元上都有一个固定的输出值Cm,于是回归树的模型可表示为:
2.回归树模型的学习:在训练数据集所在的特征空间中,递归地将每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉决策树;
(1)选择最优切分变量 j 和切分点 s ,求解:
遍历变量j,对固定的切分变量j 扫描切分点s,选择使上述预测误差(也就是平方误差)达到最小值的对(j,s);
(2)继续对两个子区域调用步骤(1)直至满足停止条件;
(3)将输入空间划分为M个区域,生成决策树: