分类回归树(CART)的快速理解

最新推荐文章于 2021-05-17 17:09:38 发布

-倾城之恋-

最新推荐文章于 2021-05-17 17:09:38 发布

阅读量486

点赞数

分类专栏：机器学习统计

本文链接：https://blog.csdn.net/P081513083/article/details/103854425

版权

机器学习同时被 2 个专栏收录

37 篇文章 0 订阅

订阅专栏

统计

23 篇文章 0 订阅

订阅专栏

回归树

回归树是一个回归模型，模型具有二叉树结构。实际思想就是将特征空间划分为若干个子空间，并计算每个子空间内样本标注的均值。预测时，只需判断样本落入哪个子空间，其对应的子空间标注均值即是其预测值。

如何划分特征空间？
以连续性特征空间为例，要选择合适的特征维度和合适的划分点。
具体方法就是遍历所有的特征维度和候选划分点，使得划分后，预测误差的平方和最小(两个子空间的总方差和最小)。重复该过程直到达到停止条件。
预测误差的平方和:
$\sum\limits_{x_i\in R_1}(y_i-c_1)^2+\sum\limits_{x_i\in R_2}(y_i-c_2)^2$

$c_1，c_2$ 为子空间的样本标注均值：
$c_1=\frac{1}{|N_1|}\sum\limits_{x_i\in R_1} y_i$ ，
$c_2=\frac{1}{|N_2|}\sum\limits_{x_i\in R_2} y_i$ 。

分类树

分类树是一个分类模型，和回归树类似也具有二叉树结构。实际思想也是划分特征空间，每个子空间天然属于某一类，预测时只需判断样本落入哪个子空间，其对应子空间类别即是预测类别。

如何划分特征空间？

以连续特征空间为例，也需要选择合适的特征维度和合适的划分点。与回归树不同，分类树用基尼系数指数来评价每一步的划分性能。具体来说，针对一个集合，选择一个特征维度，然后选择一个划分点，根据特征维度值是否等于该划分点，可以将集合划分为两个子集，然后计算两个子集的基尼指数的加权和，子集权重等于该子集数量占原集合的比例。该基尼指数加权和称为集合在某划分条件下的基尼指数。

基尼指数定义：
基尼指数可以用来描述一个分布或者一个集合的不确定性（和熵类似）。其数值等于任意选择两个样本，这两个样本不属于同一类的概率，如下式：
$1-\sum\limits_{k=1}^{C} p_kp_k$ 。
$\frac{|D_1|}{|D|}Gain(D_{1})+\frac{|D_2|}{|D|}Gain(D_{2})$

-倾城之恋-

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分类回归树(CART)的快速理解

回归树回归树是一个回归模型，模型具有树型结构。实际思想就是将特征空间划分为若干个子空间，并计算每个子空间内样本标注的均值。预测时，只需判断样本落入哪个子空间，其对应的子空间标注均值即是其预测值。如何划分特征空间？以连续性特征空间为例，要选择合适的特征维度和合适的划分点。具体方法就是遍历所有的特征维度和候选划分点，使得划分后，预测误差的平方和最小(两个子空间的总方差和最小)。重复该过程直到达...
复制链接

扫一扫