未经许可请勿转载
前面我们已经介绍了ID3,C4.5,CART,CHAID分类树构建方法,这次我们来介绍回归树。分类树主要是对类别型的目标字段构建,而回归树主要针对目标字段是数值型的来构建模型。
对于ID3,C4.5和C5.0来说,只能用于构建分类树,不能建立回归树,而CHAID要求更为严格,输入字段都必须是类别型。只有CART方法,目标字段既可以是类别型,也可以是数值型。当目标字段是类别型时,CART用的Gini方法进行字段选择,用验证数据集来砍树。当目标字段是数值型时,也就是叶节点是一个value时,CART方法构建的就是Regression Tree。
下面我们使用房价预测的案例来说明CART方法是怎么运行的。输入字段有5个,location是房屋位置,type是房屋的形态(attached公寓,Detached独立屋),Miles是距离学校的距离,SF是房子的大小,CM是否社区型房子(通常户数越少越贵)。目标字段就是房价。
如果我们拿到上述的数据后,被要求做一个特定房价的预测,你会怎么做?最简单的一种方法就是算一下10个房屋的平均价作为我们的预测值,但是偏差会比较大。回归树可以用来解决这个问题。
根据Location的不同,我们可以把10所房屋分成Urban和Rural两类,分别计算其平均值。现在我们再次来预测房屋价格,比如ID为1的房屋我们预测为252K,虽然低估了其实际价格,但是比没有分支的情况已经改进,误差降低很多

本文介绍了如何使用CART方法构建回归树,以房价预测为例,阐述了回归树通过不断划分属性降低预测误差的过程。CART方法在属性选择时考虑方差,以减少预测的离散程度。M5方法则进一步在叶节点引入线性模型,提高预测准确性。
最低0.47元/天 解锁文章
533

被折叠的 条评论
为什么被折叠?



