基于CART的回归和分类任务

    CART 是 classification and regression tree 的缩写,即分类与回归树。    

    博主之前学习的时候有用过决策树来做预测的小例子:机器学习之决策树预测——泰坦尼克号乘客数据实例,不过在那篇博客中并没有详细阐述算法的原理,本篇博客以学习 CART 里面的思想为主。

1 基于 CART 的回归

1.1 定义概述

    CART 假设决策树是二叉树,因此回归树的生成式递归构建二叉树决策的过程。其核心思想是通过对特征空间分层预测,每个空间的观测值的均值即为该空间内所有观测值的预测值。一般采用“自上而下”的贪婪方法:递归二叉分裂(recursive binary splitting)。最优分裂仅仅限于某一步进程,而不是针对全局去选择能够在未来进程中构建出更好的树的分类点。

1.2 建立回归树

(1)将预测变量空间分割成若干互不重叠的区域,划分遵循的原则是使得两个两份的区域的残差平方和最小。


遍历变量 j,对固定的切分变量 j 扫描切分点 s选择使上式最小值的对 (j, s)其中 Rm 是被划分的输入空间,Cm是空 R应的固定输出值

(2)用选定的对(j, s)划区域并决定相应的输出值:

R1(j.s)={xx(j)s},                                     

(3)重复步骤(1)和(2),直到满足条件,比方当所有区域的观测值的个数都不大于5时,分裂停止。

(4)对划分的空间进行预测(用这一空间的训练集平均响应值对其预测)。

1.3 树的剪枝

    树的分裂点过多,可能会导致过拟合。为了避免过拟合的方法,我们可以人为设定 RSS 的阈值,但是这样可能会使得一些初看起来不值得分裂的点在之后会有很好的分裂,也就是在下一步中 RSS 会大幅度减小。

    因此,更好的策略是生成一棵大树,通过剪枝(prune)得到子树(subtree)。

    采用代价复杂性剪枝(cost complexity pruning),也叫做最弱联系剪枝(weakest link pruning)。取 a 满足下式:


    绝对值 T 表示树 T 的终端节点数, 这种减小过拟合的方式类似于 Lasso

2 基于 CART 的分类

2.1 定义概述

    分类树和回归树非常相似,区别在于分类树可以用于预测定性白那辆而非定量变量。对于分类树,其给定观测值被预测为它所属区域内训练集中最常出现的类。可以选用分类错误率代替 RSS 作为分类指标,但是这个指标对于分类错误率不敏感,因此实践中采用基尼系数或者互熵

2.2 分类指标

    基尼系数(Gini index)定义如下:


其中,k 是类别数目,代表第 m 个区域的训练集中的第 k 类所占的比例。G 的值接近 0 或 1。因此基尼系数被视为衡量节点的纯度指标。

    互熵(cross-entropy)定义如下:


    基尼系数和互熵在数值上是非常接近的。

3 优缺点概述

    与传统方法比较,决策树有以下的优缺点:

(1)解释性有时候好于线性回归,小规模树方便解释

(2)接近人的决策

(3)直接处理定性预测变量,而不需要创建哑变量

(4)一般预测准确性无法达到其他回归和分类的水平


参考资料:《统计学习导论——基于R的应用》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
CART(Classification and Regression Trees)算法,也称为决策树算法,是一种用于分类回归任务的监督学习方法。它通过构建决策树来学习数据的结构,每个内部节点表示一个特征测试,分支代表该测试的结果,叶子节点则代表最终的预测或分类结果。CART算法可以生成既能做分类也能做回归的决策树。 ID3(Iterative Dichotomiser 3),是CART的一个早期版本,主要关注的是分类问题。ID3算法使用信息增益作为选择特征的度量标准,它是一个基于熵或基尼不纯度的信息论方法,从左到右构建决策树。 C4.5是J48的更早版本,是由C5.0的创建者Ross Quinlan开发的。相比于ID3,C4.5引入了两个关键改进:一是处理连续属性(通过创建离散化版本),二是引入了基于信息增益率(处理噪声数据时更稳健)的选择特征策略。 CART算法则是C4.5的一个扩展,它在回归任务上同样有效,使用的是基尼指数(Gini impurity)或均方误差(MSE)来评估节点的分裂质量。CART算法有两种主要类型:分类树(CART-C)和回归树(CART-R)。CART-C会生成类别标签,而CART-R生成连续数值预测。 比较如下: 1. **ID3/C4.5**:主要针对分类问题,ID3的信息增益偏向于选择纯属性,而C4.5的信息增益率更能抵抗噪声干扰。 2. **CART**:除了分类外,还支持回归任务,且在选择最佳特征时使用了基尼系数,提供了更强的灵活性。 3. **决策过程**:ID3/C4.5按属性值划分,CART根据特征值的分布进行划分,可能产生更复杂的树。 4. **处理连续性**:ID3/C4.5通常需预处理连续变量,而CART可以直接处理。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值