回归树
原理
回归树是使用树模型做回归问题,这个时候,每片叶子节点代表的就不是一个种类了,而是代表一个预测数值。预测数值一般是叶子节点所包含样本的均值。分类树使用的是熵或者基尼不纯度进行划分的,根据不同特征划分数据集让数据集的熵或者基尼不纯度降低。回归树是使用标准方差来进行划分的。
比如我想知道某人今天打球会得多少分,那么我将过去一个月的得分情况都拿到。算一算均值,认为他今天得分应该是这个均值。这是一个好的估计吗?还不错。然后我计算一下这一个月数据的方差,如果这个方差很大,也就是数据并不是集中分布在均值附近,那么可以说,今天的实际得分很可能偏离估计值(均值)比较大。这就有问题的。
如果我知道每天对应下雨不下雨,还知道对应每天的得分。那么我按照下雨不下雨将这个一个月的数据分开来。一般来说,下雨这个人发挥不是很好,得分会低一些,大多居于20左右;不下雨这个人得分高一些,大多居于40左右。我看看今天下雨不下雨,今天不下雨,我估计这个人的得分是40。那这就比原来估计整体的均值30要强。因为这个人不下雨一般都在40左右的。也就是下雨的得分是均值为20的正太分布,不下雨的得分是均值为40的正太分布。
下面问题来了,怎么衡量通过某一个特征划分之后,估计的好坏呢?我们认为,划分之后,同一个节点的数据应该越接近越好,这说明得分相同的情况在往一起靠。可以用标准方差来衡量数据分散的大小。如果划分之后,每一堆的数据较原来的数据更加接近,那么标准方差就会减小了。也就是条件标准方差肯定会减小。
什么时候停止划分呢?很明显,如果所有的得分都想同了,就可以停止划分了。但是实际情况很少会出现这种情况,这就成了分类问题了。大部分情况都是不相同的,我们使用变化系数来决定是否进行下一步的划分。 c o f f e i c i e n t o f v a r i a t i o n = C V = S x ‾ ∗ 100 % coffeicient of variation=CV=\frac{S}{\overline{x}}*100\% coffeicientofvariation=CV=xS∗100%从公式上来看,CV表示的是标准方差与均值的比值,这个值越小,表明数据越集中在均值附近,小于某个阈值就可以停止划分了。当然如果某个节点里面的元素个数小于某个值,那么也可以停止划分,特征用完了也要停止划分。