CART 分类回归树 (Classification and regression tree)
CART是决策树的一种,递归地二分每个特征,生成树为二叉树。
对回归树用平方误差最小化准则;
对分类树用基尼指数最小化准则。
回归树
假设回归树已将输入空间划分为M个单元
R1,R2,...RM
R
1
,
R
2
,
.
.
.
R
M
,并且在每个单元
Rm
R
m
上有一个输出值
cm
c
m
,
cm
c
m
是
Rm
R
m
上所有输入实例
xi
x
i
对应的输出
yi
y
i
的均值。
回归树模型可以表示如下
如何划分
最小化平方误差准则
选择最优的特征
x(j)
x
(
j
)
和它的取值
s
s
。
遍历j,遍历s,找到最小的 (j,s) ( j , s ) 。
对划分出的子区域继续调用。
停止条件?
分类树
数据集D根据特征A是否取某一个可能值
a
a
被分割成,
D2
D
2
。
则在特征A的条件下,集合D的基尼指数定义为
类似 条件熵
n是A的取值个数。
信息增益最大等价条件熵最小
分类树的目标——基尼指数最小。
遍历特征A,遍历可能取值a,找到最小的基尼指数对应的 (A,a) ( A , a )
停止条件
节点中的样本个数小于预定阈值,
或者样本集的基尼指数小于预定阈值(样本基本属于同一类),
或者没有更多的特征。
CART剪枝
未完
决策树之间的比较
这个博客写的很好
http://www.cnblogs.com/pinard/p/6050306.html
http://www.cnblogs.com/pinard/p/6053344.html