树的长处有一个就是在不需预处理的前提下处理很多的类型。就是不需要常规化,标准化数据的特征。

区分regression tree跟model tree.


1.Regression Tree

数值树的建立的基本原理跟类型树的建立过程是相同的。在拆分方式上,数值型的有其方法。数值型的拆分标准是standard deviation reduction(SDR)。定义如下:

                                |Ti|

SDR = sd(T) -  Σ —— * sd(Ti) 

          |T|


|T| - T集合里数目


衡量预测性能的方法:

a.可以计算输出向量跟测试向量的相关性 cor。 相关度越高越好。这种方法是衡量相关强度(how strong).

b. 另外一种是衡量相差多远(how far). 这种方法计算预测值与测试值之间平均相差多上。 这个度量叫做mean aboslute error(MAE).

                1         n

MAE =  ——    Σ  |ei|

     n  i=1 


ei 就是预测值与真实值的差。


2。Model Tree

Model Tree是在Regression Tree 的基础上把叶子节点(leaf node) 用线回归模型来替换。这样通常可以带来更准确的预测结果。

较为先进的算法是M5' 算法(M5-prime)