CART-分类回归树
CART:分类回归树(Classification and Regression Tree),属性如下:
1)CART分裂过程是一个二叉递归划分过程;
2)CART预测变量x的类型既可以是连续型变量量也可以是分类型变量;
3)CART数据应以其原始形式处理,不需要离散化;
4)CART用于数值型预测时,并没有使用回归,而是基于到达叶结点的案例的平均值做出预测。
分裂准则
1)二叉递归划分:条件成立向左,反之向右:
- 对于连续变量:条件是属性小于等于最优分裂点;
- 对于分类变量量:条件是属性属于若干类。
2)二叉分裂的优点:相比多路分裂导致数据碎片化的速度慢,允许在一个属性上重复分裂,即可以在一个属性上产生足够多的分裂。两路分裂带来的树预测性能提升足以弥补其相应的树易读性损失。
对于属性不同的被预测变量y分裂准则不同:
- 分类树:Gini准则。与之前的信息增益很类似,Gini系数度量量一个结点的不纯度。
- 回归树:一种常见的分割标准是标准偏差减少(Standard Deviation Reduction, SDR),类似于最小均方误差LS(least squares,预测错误的平方和)准则。
利用测试集进行剪枝
以下简单讨论CART算法剪枝过程,该过程也是测试集用于修正模