本章也是预测数值型数据,非分类算法。
前面介绍了线性回归预测数值型数据,但是有不足:
(1)需要拟合所有的样本点(局部加权线性回归除外)
(2)当数据拥有众多特征且特征之间关系十分复杂时,构建全局模型的想法就显得很难了,也略显笨拙。
(3)实际生活中很多问题都是非线性的,不可能使用全局线性模型来拟合任何数据。
所以就用到了树回归,树结构和回归法结合。
树回归是通过构建树,来对连续性数值型(回归)数据进行预测。所以首先构建树,将构建两种树:回归树和模型树,然后分别用户回归。
(1)回归树(regression tree),其每个叶节点包含单个值。
(2)模型树(model tree),其每个叶节点包含一个线性方程。
一、CART算法构建(通用)树
CART(Classification And Regression Trees,分类回归树)是一种树构建算法。该算法既可以用于分类还可以用于回归。CART算法采用二元切分来处理连续型变量,对CART稍作修改就可以处理回归问题。
前面讲到过决策树,用的是ID3算法构建树,非二元切分,而是按照特征的所有可能取值类切分。
回归树与分类树的思路类似,但是节点的数据类型不是离散型,而是连续型。