【机器学习】 分类树

分类树和回归树的区别:分类树被用于预测定性变量(即类别变量)而非定量变量。在回归树中,相应预测值取它所属的叶节点的训练观测的平均相应值;在分类树中,相应预测值取它所属的叶节点的训练观测中最常出现的类别。

分类树也采用递归二叉分裂方法。但在分类树中,RSS无法作为二叉分裂的准则,替代指标是分类错误率。
分类错误率可以如下定义:此区域的训练观测中非最常见类别所占的比例,其数学表达式为:
在这里插入图片描述
但分类错误率在构建分类树的过程中不够敏感。在实践中,我们通常采用下面的两个指标:
在这里插入图片描述
如果基尼指数的值较小,意味着第m个节点所包含的观测值几乎都来自于同一个类别。
在这里插入图片描述
因为基尼指数和互熵这两个指标对节点的纯度更敏感,所以在构建分类树的过程中常用他们来衡量特定分裂点的分裂结果。但若我们的目标是追求更高的预测准确性的话,此时建议选择分类错误率这一指标。

参考资料:机器学习与人工智能-浙江大学-中国大学mooc

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值