分类树和回归树的区别:分类树被用于预测定性变量(即类别变量)而非定量变量。在回归树中,相应预测值取它所属的叶节点的训练观测的平均相应值;在分类树中,相应预测值取它所属的叶节点的训练观测中最常出现的类别。
分类树也采用递归二叉分裂方法。但在分类树中,RSS无法作为二叉分裂的准则,替代指标是分类错误率。
分类错误率可以如下定义:此区域的训练观测中非最常见类别所占的比例,其数学表达式为:
但分类错误率在构建分类树的过程中不够敏感。在实践中,我们通常采用下面的两个指标:
如果基尼指数的值较小,意味着第m个节点所包含的观测值几乎都来自于同一个类别。
因为基尼指数和互熵这两个指标对节点的纯度更敏感,所以在构建分类树的过程中常用他们来衡量特定分裂点的分裂结果。但若我们的目标是追求更高的预测准确性的话,此时建议选择分类错误率这一指标。