分为回归树和分类树
CART前提是采用的二叉树决策树,不论是回归还是分类都是是/否
1。回归树
假设把输入空间划分,每个空间单元有一个固定的输出值,模型表示为:
易知每个单元Rm熵的固定输出值Cm最优值为样本在此单元上输出的均值。
在确定模型中采用了平方误差来进行误差确定
j是特征j,s是特征j对应的一个取值(就是要确定怎样划分空间,用什么特征,特征中的那个值)
[ ] 里面的就是二叉树的两部分,两部分最小化误差,那么根据求导可知:
c1 = R1中y的均值,c2同理
这样得到两个划分,再对这两个继续划分,最后得到回归树
回归树本质在于采用平方损失,找到划分的特征和取值
2。分类树
注意区别,这里由于是二叉树,对于特征取值多的,采用特征 = 1是不是这样的方式进行分叉
特征划分标准:基尼指数
生成分类树的方法就是:
就看G(D,A)哪个小选择哪个作为分类特征