CART的全称是Classification And Regression Tree,于1984年由Breiman等人提出,顾名思义它可用于分类和回归,本文只讲它在回归上的应用。
对于回归树有要这么几点认识:
- 可以捕获Y对Xi的依赖性,上图的结果显示Y对X7和X8没有依赖。也可以充实我们对自变量之间关系的认识。
- 树的形式简洁、高效。
- 节点的每次分裂都把原样本空间划分为互不相交的两个子集。每次都根据某个局部标准,选择最好的划分,因此它是一种贪心的爬山算法。
- 越往树的底层深入,节点覆盖的样本越少,即随着树的生长,估计越来越不可靠。
- 叶节点同样覆盖了一定数目(1个或多个)的样本。
- 回归树估计的准确率很大程序上依赖于样本的质量。
- 因素Xi可以是连续值,也可以是离散值 。
- 回归树拟合出来的是一个分段零阶函数。
上面也说了每次节点分裂时依据某个局部标准选择最好的划分,一种常用的标准就是:最小平方误差(LS)。
n是样本个数,<x
i
,y
i
>是一个数据点,r是预测值。
如果叶节点值取常数,为了使LS最小,应赋予它该叶节点所覆盖的t个样本的目标值的平均值。
D
t