CART树回归算法解析
1 初衷
- 我们之前接触的ID3决策树,它特点是将所有的特征转化成标称的值。比如说年龄维度的数据是从1-80的,我们不是将这个特征按照80分进行特征分支而跟可能是按照老中青这种分成几个区间的特征,这个过程也就是将连续值转化成标称值。也就是说ID3决策树处理其实还是离散值,不是连续值。而且怎么处理都是人说了算的,年龄可以那样分,但是其它的数据是不是也是同样分呢?在这个转换过程中,我们是不是流失掉了一些信息,而且如果所有的连续值都化成离散值的话,是不是也不科学呢?
- 今天学的这个CART树,则是比较适合连续值的处理。他实际是个二叉树,反复将连续输入的特征值进行二分。
2 数据文本
输入文本格式
输入样本 分类结果
0.409175 1.883180
0.182603 0.063908
0.663687 3.042257
0.517395 2.305004
0.013643 -0.067698
0.469643 1.662809
0.725423 3.275749
3 CART树
-
CART树和ID3决策树回归是一样的,不同的地方是CART树做的都是二分,而ID3则可以一个节点分出多个分支。
-
纯净度依据:经典的CART