C&RT（CART）详解

最新推荐文章于 2021-03-30 11:39:40 发布

Leon1895

最新推荐文章于 2021-03-30 11:39:40 发布

阅读量1.4k

点赞数

分类专栏：机器学习文章标签： C&amp;amp;amp;amp;amp;RT CART 决策树

本文链接：https://blog.csdn.net/qq_40793975/article/details/81270102

版权

本文深入探讨了CART（C&RT）决策树，包括预备知识如基尼系数、回归误差等，以及推导过程中的CART与ID3的区别、分类模型、回归树（Regression Tree）和模型树（Model Tree）。文章还提到了CART在处理连续型特征上的优势和在实际应用中的优缺点，并提供了代码实现和性能对比。

摘要由CSDN通过智能技术生成

#C&RT详解

第七次写博客，本人数学基础不是太好，如果有幸能得到读者指正，感激不尽，希望能借此机会向大家学习。这一篇文章的内容来自于各种书籍、网上资料，以及自己的一些见解。关于决策树的一些基本概念在这篇博客《Decision Tree简介（决策树算法族的开篇）》中有相关介绍。

预备知识：

这一部分主要是谈一谈几种基于信息论和回归误差的结点划分方法，包括基尼系数（Gini Value）、回归误差（Regression Error）、线性回归误差（Linear Regression Error）、基尼指数（Gini Index）、加权回归误差（Weighted Regression Error）以及加权线性回归误差（Weighted Linear Regression Error）。

基尼系数（Gini Value）

“基尼系数”（Gini Value）是度量数据集纯度的一种指标，其定义如下

由上式可以看出，基尼系数（Gini Value）反映了从数据集 $D$ 中随机抽取两个样本，他们的类别标记不一致的概率，因此，基尼系数越小，数据集的纯度越高。

回归误差（Regression Error）

“回归误差”（Regression Error）也是定义数据集纯度的指标之一，定义如下

其中， $\bar{y}=average\_of\{y_n\}$ 。

线性回归误差（Linear Regression Error）

假设，给定数据集 $D=\{\left(\mathbf{x}_i,y_i\right)|i=1,2,...,m\}$ 含有 $m$ 个样本点，其中 $\mathbf{x}_i=\{x_i^j|j=1,2,...,n\}$ 为第 $i$ 个样本的 $j$ 维特征向量， $y_i$ 为这个样本的真实输出值。根据给定的数据集训练得到一个线性模型，该模型的表达式如下所示