回归树

回归树

原理

回归树是使用树模型做回归问题,这个时候,每片叶子节点代表的就不是一个种类了,而是代表一个预测数值。预测数值一般是叶子节点所包含样本的均值。分类树使用的是熵或者基尼不纯度进行划分的,根据不同特征划分数据集让数据集的熵或者基尼不纯度降低。回归树是使用标准方差来进行划分的。

比如我想知道某人今天打球会得多少分,那么我将过去一个月的得分情况都拿到。算一算均值,认为他今天得分应该是这个均值。这是一个好的估计吗?还不错。然后我计算一下这一个月数据的方差,如果这个方差很大,也就是数据并不是集中分布在均值附近,那么可以说,今天的实际得分很可能偏离估计值(均值)比较大。这就有问题的。

如果我知道每天对应下雨不下雨,还知道对应每天的得分。那么我按照下雨不下雨将这个一个月的数据分开来。一般来说,下雨这个人发挥不是很好,得分会低一些,大多居于20左右;不下雨这个人得分高一些,大多居于40左右。我看看今天下雨不下雨,今天不下雨,我估计这个人的得分是40。那这就比原来估计整体的均值30要强。因为这个人不下雨一般都在40左右的。也就是下雨的得分是均值为20的正太分布,不下雨的得分是均值为40的正太分布。

下面问题来了,怎么衡量通过某一个特征划分之后,估计的好坏呢?我们认为,划分之后,同一个节点的数据应该越接近越好,这说明得分相同的情况在往一起靠。可以用标准方差来衡量数据分散的大小。如果划分之后,每一堆的数据较原来的数据更加接近,那么标准方差就会减小了。也就是条件标准方差肯定会减小。

什么时候停止划分呢?很明显,如果所有的得分都想同了,就可以停止划分了。但是实际情况很少会出现这种情况,这就成了分类问题了。大部分情况都是不相同的,我们使用变化系数来决定是否进行下一步的划分。 c o f f e i c i e n t o f v a r i a t i o n = C V = S x ‾ ∗ 100 % coffeicient of variation=CV=\frac{S}{\overline{x}}*100\% coffeicientofvariation=CV=xS100%从公式上来看,CV表示的是标准方差与均值的比值,这个值越小,表明数据越集中在均值附近,小于某个阈值就可以停止划分了。当然如果某个节点里面的元素个数小于某个值,那么也可以停止划分,特征用完了也要停止划分。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值