1. 分类与回归树原理（CART）

最新推荐文章于 2024-05-14 17:05:40 发布

gss123_123

最新推荐文章于 2024-05-14 17:05:40 发布

阅读量3.1k

点赞数 2

分类专栏：机器学习文章标签：人工智能

本文链接：https://blog.csdn.net/gss123_123/article/details/124381699

版权

本文介绍了CART（分类与回归树）算法，包括其原理、特征处理、CART分类树与回归树的构建、剪枝策略。CART采用基尼系数或平方误差作为特征选择标准，通过预剪枝和后剪枝策略来防止过拟合。文章还探讨了CART在类别不平衡情况下的处理机制。

摘要由CSDN通过智能技术生成

1. 简介

分类与回归树（Classification And Regression Tree），采用二分递归分割技术，将当前样本集划分成两个子集，即其结构为二叉树，每个内部节点均只有两个分支。左分支为特征值为True的样本集合，右分支为特征取值为False的样本集合。

CART既可以处理连续型特征，也可以处理离散型特征，基于预测值的取值类 $D2$ 型不同，可划分成回归树和分类树两种。

预测值为连续型变量，则CART生成回归树。
预测值为离散型变量，则CART生成分类树。

2. 特征处理

CART既可以使用离散特征，也可以使用连续特征。

（1）连续特征的处理

对于连续型特征，需要进行离散化处理。假设数据集 $D$ 有 $n$ 个样本，关于连续特征 $A$ ，按照样本取值大小，从小到大进行排列，得到样本集关于A取值序列 $a_{1}, a_{2},..., a_{n}$ 。CART取两个连续取值的中点作为切分点，即第 $i$ 个切分点为 $T_{i} = \frac{a_{i} + a_{i+1}}{2}$ ，关于连续特征 $A$ 的切分点一共有 $n-1$ 个。

当选择第 $i$ 个切分点 $T_{i}$ 时，左分支的样本子集为关于特征 $A$ 取值小于 $T_{i}$ 的样本的集合，右分支的样本子集为剩余样本的集合。

（2）离散特征的处理

离散特征，把特征的各个取值作为切分点，例如，离散特征 $A^{'}$ 有 $t$ 个取值 $a_{1},a_{2},...,a_{t}$ ，则关于该特征共有 $t$ 个切分点。其中第 $i$ 切分点，表示选择 $A{}'=a_{i}$ 作为特征，左分支表示关于特征 $A{}'$ 取值为 $a_{i}$ 的样本的集合，右分支为剩余样本的集合。

3. CART分类树

当预测值为连续值时，生成CART分类树。CART分类树采用基尼系数（Gini）进行分类特征的选择。

基尼系数（Gini）反映的是数据集的纯度，表示的是直接从数据集中随机抽取两个样本，这两个样本属于不同类别的概率。基尼系数越小，表示数据集的纯度越高。

（1）基尼系数计算公式

假设数据集 $D$ 有 $K$ 个类别，其基尼系数的计算公式如下：

$Gini(D) = \sum_{k=1}^{K} p_{k}(1-p_{k})= 1 - \sum_{k=1}^{K} p_{k}^{2}$

以离散型特征为例，假设特征 $A$ ，有 $m$ 个取值，分别为 $a_{1},a_{2},...,a_{m}$ ，若选择特征 $A$ 取值为 $a_{i}$ ，则将数据集 $D$ 划分成两个子集 $D_{1}$ （左分支，特征 $A$ 取值为 $a_{i}$ ）和 $D_{2}$ （右分支，特征 $A$ 取值不等于 $a_{i}$ ），则数据集选取该特征进行分类后的基尼系数如下：

最低0.47元/天解锁文章

gss123_123

关注

2
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
1. 分类与回归树原理（CART）

1. 简介分类与回归树（Classification And Regression Tree），采用二分递归分割技术，将当前样本集划分成两个子集，即其结构为二叉树，每个内部节点均只有两个分支。左分支为特征值为True的样本集合，右分支为特征取值为False的样本集合。CART既可以处理连续型特征，也可以处理离散型特征，基于预测值的取值类型不同，可划分成回归树和分类树两种。预测值为连续型变量，则CART生成回归树。预测值为离散型变量，则CART生成分类树。2...
复制链接

扫一扫