1. 基础知识
CART作为二叉决策树,既可以分类,也可以回归。
分类时:基尼指数最小化。
回归时:平方误差最小化。
数据类型:标值型,连续型。连续型分类时采取“二分法”, 取中间值进行左右子树的划分。
2. CART分类树
特征A有N个取值,将每个取值作为分界点,将数据D分为两类,然后计算基尼指数Gini(D,A), 选择基尼指数小的特征A的取值。然后对于每个特征在计算基尼指数,最后得到最佳的特征的最佳取值作为分支点。
基尼指数表示数据D的不纯度,基尼指数越小不纯度越小。
3. CART回归树
切分数据时依据的误差函数:总方差最小化。
计算属于该节点的所有样本的y的均值, 接着计算总方差,N为属于该节点的样本数目:
特征A的某个取值val将数据集分成两个数据集,那么分支后的误差为: