cart算法_决策树算法之CART算法

CART算法是一种二叉决策树方法,适用于分类和回归问题。它通过基尼系数选择最佳划分属性,并有多种终止条件,如纯度、深度和样本数。在构建树后,可能进行剪枝以防止过拟合。本文介绍了CART的原理、步骤,并以鸢尾花数据集为例展示了其实践应用。
摘要由CSDN通过智能技术生成

一、CART算法概念

分类回归树(CART,Classification And Regression Tree)也属于一种决策树。分类回归树是一棵二叉树,且每一个非叶子节点都有两个枝杈,一般而言对于第一棵子树其叶子节点数比非叶子节点数多1。使用基尼系数作为分类标准,离散、连续数据均可,适用于分类树,回归树。

二、CART算法原则

决策树生长的核心是确定决策树的分枝准则。

1 怎样从众多的属性变量中选择一个当前的最佳分支变量,也就是选择能使异质性下降最快的变量。其中异质性的度量:GINI、TWOING和least squared deviation(前两种主要针对分类型变量,LSD针对连续性变量)。

2 怎样从分支变量的众多取值中找到一个当前的最佳切割点(切割阈值)。对于数值型变量,对记录的值从小到大排序,计算每一个值作为临界点产生的子节点的异质性统计量。可以使异质性减小程度最大的临界值便是最佳的划分点;对于分类型变量,列出划分为两个子集的全部可能组合。计算每种组合下生成子节点的异质性。相同。找到使异质性减小程度最大的组合作为最佳划分点。

在决策树的每个节点上我们能够按任一个属性的任一个值进行划分,有3个标准能够用来衡量划分的好坏:GINI指数、双化指数、有序双化指数。

3 终止条件是一个节点产生左右枝杈后,递归地对左右枝杈进行划分就可以产生分类回归树。那么先给出终止条件,在终止时候节点就能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值