CART算法(Classification And Regression Tree)
http://blog.csdn.net/u014568921/article/details/45082197
https://wenku.baidu.com/view/286c19dae009581b6bd9eb59.html
http://www.dataguru.cn/article-4720-1.html
一、介绍
采用一种二分递归分割的技术,分割方法采用基于最小距离的基尼指数估计函数,将当前的样本集分为两个子样本集,使得生成的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简介的二叉树。
1.分类树
如果目标变量是离散变量,则是Classfication Tree;
分类树是使用树结构算法将数据分成离散类的方法。
2.回归树
如果目标是连续变量,则是Regression Tree;
CART树是二叉树,不像多叉树那样形成过多的数据碎片。
二、分类树两个关键点
1.将训练样本进行递归地划分自变量空间进行建树
2.用验证数据进行剪枝
A)对于离散变量X(x1…xn)
分别取X变量各值的不同组合,将其分到树的左枝或右枝,并对不同组合而产生的树,进行评判,找出最佳组合。
如果只有两个取值,直接根据这两个值就可以划分树。
取值多于两个的情况就复杂一些,如变量年纪,其值有“少年”、“中年”、“老年”,则分别生产{少年,中年}和{老年},{少年、老年}和{中年},{中年,老年}和{少年},这三种组合,最