CART(Classification And Regression Tree)

CART算法是一种二分递归分割技术,用于创建简洁的二叉决策树。它适用于分类和回归任务,通过最小化基尼指数或平方误差来选择最佳分割点。在构建树的过程中,CART考虑了离散和连续变量,遵循特定的变量选择和切分原则。剪枝是防止过拟合的重要步骤,常见的剪枝方法包括错误率降低剪枝、悲观剪枝和代价复杂性剪枝。
摘要由CSDN通过智能技术生成

CART算法(Classification And Regression Tree)

http://blog.csdn.net/u014568921/article/details/45082197
https://wenku.baidu.com/view/286c19dae009581b6bd9eb59.html
http://www.dataguru.cn/article-4720-1.html

一、介绍

采用一种二分递归分割的技术,分割方法采用基于最小距离的基尼指数估计函数,将当前的样本集分为两个子样本集,使得生成的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简介的二叉树。

1.分类树

如果目标变量是离散变量,则是Classfication Tree;
分类树是使用树结构算法将数据分成离散类的方法。

2.回归树

如果目标是连续变量,则是Regression Tree;
CART树是二叉树,不像多叉树那样形成过多的数据碎片。

二、分类树两个关键点

1.将训练样本进行递归地划分自变量空间进行建树
2.用验证数据进行剪枝

A)对于离散变量X(x1…xn)

分别取X变量各值的不同组合,将其分到树的左枝或右枝,并对不同组合而产生的树,进行评判,找出最佳组合。

如果只有两个取值,直接根据这两个值就可以划分树。

取值多于两个的情况就复杂一些,如变量年纪,其值有“少年”、“中年”、“老年”,则分别生产{少年,中年}和{老年},{少年、老年}和{中年},{中年,老年}和{少年},这三种组合,最

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值