【机器学习】CART分类决策树+代码实现

1. 基础知识

CART作为二叉决策树,既可以分类,也可以回归。

分类时:基尼指数最小化。

回归时:平方误差最小化。

数据类型:标值型,连续型。连续型分类时采取“二分法”, 取中间值进行左右子树的划分。

2. CART分类树

特征A有N个取值,将每个取值作为分界点,将数据D分为两类,然后计算基尼指数Gini(D,A), 选择基尼指数小的特征A的取值。然后对于每个特征在计算基尼指数,最后得到最佳的特征的最佳取值作为分支点。

基尼指数表示数据D的不纯度,基尼指数越小不纯度越小。

\\Gini(D) = 1- \sum_{k=1}^{K}(\frac{|D^k|}{|D|})^2 \\Gini(D,A) = \frac{|D_1|}{|D|}Gini(D_1) + \frac{|D_2|}{|D|}Gini(D_2)

3. CART回归树

切分数据时依据的误差函数:总方差最小化。

计算属于该节点的所有样本的y的均值\mu, 接着计算总方差,N为属于该节点的样本数目:

\sigma = \sum_{i=1}^{N} \sqrt{(y_i - \mu)^2}

特征A的某个取值val将数据集分成两个数据集,那么分支后的误差为:

  • 5
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值