回归树

最新推荐文章于 2024-07-24 20:39:13 发布

WAng_Pc_Better

最新推荐文章于 2024-07-24 20:39:13 发布

阅读量1.6k

点赞数 2

文章标签：机器学习 cart分类回归树

本文链接：https://blog.csdn.net/qq_39802318/article/details/115149032

版权

回归树

- 原理

原理

回归树是使用树模型做回归问题，这个时候，每片叶子节点代表的就不是一个种类了，而是代表一个预测数值。预测数值一般是叶子节点所包含样本的均值。分类树使用的是熵或者基尼不纯度进行划分的，根据不同特征划分数据集让数据集的熵或者基尼不纯度降低。回归树是使用标准方差来进行划分的。

比如我想知道某人今天打球会得多少分，那么我将过去一个月的得分情况都拿到。算一算均值，认为他今天得分应该是这个均值。这是一个好的估计吗？还不错。然后我计算一下这一个月数据的方差，如果这个方差很大，也就是数据并不是集中分布在均值附近，那么可以说，今天的实际得分很可能偏离估计值（均值）比较大。这就有问题的。

如果我知道每天对应下雨不下雨，还知道对应每天的得分。那么我按照下雨不下雨将这个一个月的数据分开来。一般来说，下雨这个人发挥不是很好，得分会低一些，大多居于20左右；不下雨这个人得分高一些，大多居于40左右。我看看今天下雨不下雨，今天不下雨，我估计这个人的得分是40。那这就比原来估计整体的均值30要强。因为这个人不下雨一般都在40左右的。也就是下雨的得分是均值为20的正太分布，不下雨的得分是均值为40的正太分布。

下面问题来了，怎么衡量通过某一个特征划分之后，估计的好坏呢？我们认为，划分之后，同一个节点的数据应该越接近越好，这说明得分相同的情况在往一起靠。可以用标准方差来衡量数据分散的大小。如果划分之后，每一堆的数据较原来的数据更加接近，那么标准方差就会减小了。也就是条件标准方差肯定会减小。

什么时候停止划分呢？很明显，如果所有的得分都想同了，就可以停止划分了。但是实际情况很少会出现这种情况，这就成了分类问题了。大部分情况都是不相同的，我们使用变化系数来决定是否进行下一步的划分。 $variation=CV=\frac{S}{\overline{x}}*100\%$ 从公式上来看，CV表示的是标准方差与均值的比值，这个值越小，表明数据越集中在均值附近，小于某个阈值就可以停止划分了。当然如果某个节点里面的元素个数小于某个值，那么也可以停止划分，特征用完了也要停止划分。

WAng_Pc_Better

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
回归树

回归树原理原理回归树是使用树模型做回归问题，这个时候，每片叶子节点代表的就不是一个种类了，而是代表一个预测数值。预测数值一般是叶子节点所包含样本的均值。分类树使用的是熵或者基尼不纯度进行划分的，根据不同特征划分数据集让数据集的熵或者基尼不纯度降低。回归树是使用标准方差来进行划分的。比如我想知道某人今天打球会得多少分，那么我将过去一个月的得分情况都拿到。算一算均值，认为他今天得分应该是这个均值。这是一个好的估计吗？还不错。然后我计算一下这一个月数据的方差，如果这个方差很大，也就是数据并不是集中分布在均值
复制链接

扫一扫