统计学习方法 学习记录4

CART算法 

CART,分类与回归树,是一种应用广泛的决策树学习方法。CART由特征选择,树的生成及剪枝组成。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。

CART算法由以下两步组成:

1.决策树生成:基于训练数据集生成决策树,生成的决策树要尽量大

2.决策树剪枝:用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准。

CART生成

回归树与分类树的区别:回归树用于处理连续型的目标变量,即数值型变量;分类树用于处理离散型的目标变量,即类别标签。

回归树的生成

回归树用平方误差最小的准则

1.选择最优切分变量j与切分点s。依次固定每个特征变量,再寻找到最优切分点使得左右两边达到最小。对比每个特征变量的最小值,得出最优的特征变量j。

2.选定最优(j,s)划分区域并决定相应的输出值

3.继续对划分的两个子区域调用步骤1.2,直至满足停止条件

4.将输入空间划分为M个区域,生成决策树。

分类树的生成

分类树的生成选用基尼指数最小化准则选用最优特征。

基尼指数 :

Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}

对于二分类问题,若样本点属于第一个类的概率为p(公式为上公式K=2得出)

Gini(p)=2p(1-p)

对于给定的样本集合D,基尼指数为

Gini(D)=1-\sum_{k=1}^{K}(\frac{|C_{k}|}{|D|})^2

如果样本集合D根据特征A是否去某一可能值a被分割成D1 D2,则在特征A的前提下,集合D的基尼指数为:

Gini(D,A)=\frac{|D_{1}|}{|D|}Gini(D_{1})+\frac{|D_{2}|}{|D|}Gnini(D_{2})

基尼指数Gini(D)表示集合D的不确定性,基尼指数Gini(D,A)表示经A=a后集合D的不确定性。基尼指数越大,样本集合的不确定性也越大。

CART生成算法

1.计算现有特征对该数据集的基尼指数。对每一个特征A,对其可能取得每个值a(特征天气,天气有阴天,晴天,雨天),根据样本点对A=a的测试为“是”,“否”将D分成两个部分D1 D2。计算A=a时的基尼指数。

2.在所有可能的特征A以及他们所有可能的切分点a中,选择基尼指数最小的特征,及其对应的切分点作为最优特征、切分点。根据此时选择的最优特征、切分点,从现结点分成两个子结点,将训练数据集按照特征分配到两个子结点中。

3.对两个子结点递归地调用步骤1 2,直至满足停止条件

4.生成CART决策树。

算法停止条件是结点中的样本个数小于预定阙值,或样本集的基尼指数小于预定阙值,或没有更多特征。

CART剪枝

1.剪枝,形成一个子树序列。

计算子树的损失函数:

C_{\alpha }(T)=C(T)+\alpha|T|

T为任意子树,C(T)是对训练数据集的预测误差,|T|子树的叶结点个数,\alpha为参数,大于等于0;C_{\alpha }(T)是参数为\alpha的子树T的整体损失。

从整体树T0开始剪枝,对其任意内部结点t,以t为单结点的损失函数是(剪枝后)

C_{\alpha }(t)=C(t)+\alpha

以t为根结点的子树Tt的损失函数为(剪枝前)

C_{\alpha }(T_{t})=C(T_{t})+\alpha|T_{t}|

\alpha增大到一个值,\alpha=\frac{C(t)-C(T_{t})}{|T_{t}|-1},此时剪枝前后具有相同损失函数值,而剪枝后t的结点少,所以更好。

对每一个内部结点t都计算

g(t)=\frac{C(t)-C(T_{t})}{|T_{t}|-1}

它表示剪枝后整体损失函数减少的程度,在T0中减去g(t)最小的Tt,得到的子树称为T1,同时将最小的g(t)设为\alpha_{1}.,T1为[\alpha_{1},\alpha_{2}]的最优子树。直到得到根节点。

2.在剪枝得到的子树序列T0,T1``````,Tn中通过交叉验证选取最优子树

测试子树序列中各棵子树的平方误差或基尼指数,取最小的决策树作为最优的决策树。最优子树确定,则对应\alpha也确定。

  • 29
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值