统计学习方法学习记录4

Moriim

于 2024-09-03 17:36:09 发布

阅读量650

点赞数 29

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77666509/article/details/141865428

版权

CART算法

CART，分类与回归树，是一种应用广泛的决策树学习方法。CART由特征选择，树的生成及剪枝组成。

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。

CART算法由以下两步组成：

1.决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大

2.决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。

CART生成

回归树与分类树的区别：回归树用于处理连续型的目标变量，即数值型变量；分类树用于处理离散型的目标变量，即类别标签。

回归树的生成

回归树用平方误差最小的准则

1.选择最优切分变量j与切分点s。依次固定每个特征变量，再寻找到最优切分点使得左右两边达到最小。对比每个特征变量的最小值，得出最优的特征变量j。

2.选定最优（j,s)划分区域并决定相应的输出值

3.继续对划分的两个子区域调用步骤1.2，直至满足停止条件

4.将输入空间划分为M个区域，生成决策树。

分类树的生成

分类树的生成选用基尼指数最小化准则选用最优特征。

基尼指数：

$Gini(p)=\sum_{k=1}^{K}p_{k}(1-p_{k})=1-\sum_{k=1}^{K}p_{k}^{2}$

对于二分类问题，若样本点属于第一个类的概率为p(公式为上公式K=2得出）

$Gini(p)=2p(1-p)$

对于给定的样本集合D，基尼指数为

$Gini(D)=1-\sum_{k=1}^{K}(\frac{|C_{k}|}{|D|})^2$

如果样本集合D根据特征A是否去某一可能值a被分割成D1 D2，则在特征A的前提下，集合D的基尼指数为：

$Gini(D,A)=\frac{|D_{1}|}{|D|}Gini(D_{1})+\frac{|D_{2}|}{|D|}Gnini(D_{2})$

基尼指数Gini(D)表示集合D的不确定性，基尼指数Gini(D,A)表示经A=a后集合D的不确定性。基尼指数越大，样本集合的不确定性也越大。

CART生成算法

1.计算现有特征对该数据集的基尼指数。对每一个特征A，对其可能取得每个值a(特征天气，天气有阴天，晴天，雨天）,根据样本点对A=a的测试为“是”，“否”将D分成两个部分D1 D2。计算A=a时的基尼指数。

2.在所有可能的特征A以及他们所有可能的切分点a中，选择基尼指数最小的特征，及其对应的切分点作为最优特征、切分点。根据此时选择的最优特征、切分点，从现结点分成两个子结点，将训练数据集按照特征分配到两个子结点中。

3.对两个子结点递归地调用步骤1 2，直至满足停止条件

4.生成CART决策树。

算法停止条件是结点中的样本个数小于预定阙值，或样本集的基尼指数小于预定阙值，或没有更多特征。

CART剪枝

1.剪枝，形成一个子树序列。

计算子树的损失函数：

$C_{\alpha }(T)=C(T)+\alpha|T|$

T为任意子树，C(T）是对训练数据集的预测误差，|T|子树的叶结点个数， $\alpha$ 为参数，大于等于0； $C_{\alpha }(T)$ 是参数为 $\alpha$ 的子树T的整体损失。

从整体树T0开始剪枝，对其任意内部结点t，以t为单结点的损失函数是（剪枝后）

$C_{\alpha }(t)=C(t)+\alpha$

以t为根结点的子树Tt的损失函数为（剪枝前）

$C_{\alpha }(T_{t})=C(T_{t})+\alpha|T_{t}|$

当 $\alpha$ 增大到一个值， $\alpha=\frac{C(t)-C(T_{t})}{|T_{t}|-1}$ ，此时剪枝前后具有相同损失函数值，而剪枝后t的结点少，所以更好。

对每一个内部结点t都计算

$g(t)=\frac{C(t)-C(T_{t})}{|T_{t}|-1}$

它表示剪枝后整体损失函数减少的程度，在T0中减去g(t)最小的Tt,得到的子树称为T1，同时将最小的g(t)设为 $\alpha_{1}$ .，T1为[ $\alpha_{1}$ , $\alpha_{2}$ ]的最优子树。直到得到根节点。

2.在剪枝得到的子树序列T0,T1``````,Tn中通过交叉验证选取最优子树

测试子树序列中各棵子树的平方误差或基尼指数，取最小的决策树作为最优的决策树。最优子树确定，则对应 $\alpha$ 也确定。

关注

29
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
统计学习方法学习记录4

CART，分类与回归树，是一种应用广泛的决策树学习方法。CART由特征选择，树的生成及剪枝组成。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。CART算法由以下两步组成：1.决策树生成：基于训练数据集生成决策树，生成的决策树要尽量大2.决策树剪枝：用验证数据集对已生成的树进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。