决策树优化及回归树

最新推荐文章于 2024-03-13 06:16:00 发布

StarCoder_Yue

最新推荐文章于 2024-03-13 06:16:00 发布

阅读量884

点赞数 1

分类专栏：机器学习学习笔记文章标签：人工智能机器学习决策树 CART 算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/starcoder_wangyue/article/details/93079917

版权

学习笔记同时被 2 个专栏收录

28 篇文章 1 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

学习打卡内容：

阅读《李航统计学习方法》的65-74页

学习Gini指数

学习回归树

剪枝

前面任务八里面我们已经了解到策树以及决策树的几种算法如

ID3算法
C4.5算法

我们已经了解，在生成了决策树之后，可能发生过拟合现象，我们需要对已经生成的树自下而上进行剪枝，将树变得更简单，从而使它具有更好的泛化能力。具体来说，就是去掉过于细分的叶节点，使其回退到父节点，甚至更高的节点，然后将父节点或者更高的节点改为新的叶节点。

可以看出，决策树学习算法包含特征选择、决策树的生成与决策树的剪枝过程.由于决策树表示一个条件概率分布，所以深浅不同的决策树对应着不同复杂度的概率模型.决策树的生成对应于模型的局部选择，决策树的剪枝对应于模型的全局选择.决策树的生成只考患局部最优，相对地，决策树的剪枝则考虑全局最优.

那么今天我们来了解CART（Classification and regression tree）算法，该模型由Breiman等人在1984年提出，是应用广泛的决策树学习方法，CART同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归.

CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法. CART假设决策树是二叉树，内部结点特征的取值为“是”和“否”，左分支是取值为“是”的分支，右分支是取值为“否”的分支这样的决策树等价于递归地二分每个特征，将输入空间即特征空间划分为有限个单元，并在这些单元上确定预测的概率分布，也就是在输入给定的条件下输出的条件概率分布。

Cart算法由两部组成：

决策树生成：基于训练数据生成决策树，生成的决策树要尽量大；
决策树剪枝：用验证数据集对已生成的书进行剪枝并选择最优子树，这时用损失函数最小作为剪枝的标准

CART树分类：

目标变量是类别型——分类树：Gini指数
目标变量是连续型——回归树：平方误差最小化

基尼指数Gini（D）表示集合D的不确定性，基尼指数Gini（D，A）表示经A=a分割后集合D的不确定性.基尼指数值越大，样本集合的不确定性也就越大，这一点与熵相似.

现在我们再来看CART回归树的生成，即（Least Squares regression tree）最小二成回归树生成：

在生成回归树之后，我们现在来看树的剪枝，CART树的剪枝和前面所讲的两种算法的剪枝不同：

参考资料：

李航《统计学习方法》

https://blog.csdn.net/Crafts_Neo/article/details/92797049

https://blog.csdn.net/qq_40981899/article/details/92803223

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
决策树优化及回归树

学习打卡内容：阅读《李航统计学习方法》的65-74页学习Gini指数学习回归树剪枝前面任务八里面我们已经了解到策树以及决策树的几种算法如 ID3算法 C4.5算法我们已经了解，在生成了决策树之后，可能发生过拟合现象，我们需要对已经生成的树自下而上进行剪枝，将树变得更简单，从而使它具有更好的泛化能力。具体来说，就是去掉过...
复制链接

扫一扫

专栏目录

StarCoder_Yue CSDN认证博客专家 CSDN认证企业博客

码龄7年

39: 原创

10万+: 周排名

53万+: 总排名

7万+: 访问

: 等级

1182: 积分

38: 粉丝

40: 获赞

5: 评论

98: 收藏

私信

关注

热门文章

分类专栏

Java 7篇
学习笔记 28篇
算法 8篇
Python 13篇
爬虫
面试 5篇
数据结构 1篇
竞赛考试 2篇
机器学习 21篇
计算机基础理论 6篇

最新评论

更改jupyter 代码字体大小及自动补全
念书就像坐牢回复三个柠檬多少钱~: 在后面加个镜像-i https://pypi.douban.com/simple
2018AI开发者大会参会感悟
三个柠檬多少钱~: hhh请问你是AI方向的吗
更改jupyter 代码字体大小及自动补全
三个柠檬多少钱~: 啊我就是用的你的指令，但是一直没法下载，或者下载特别慢
大数据框架之Spark框架
StarCoder_Yue 回复周宇羚: 受教了，我已经去你的博客浏览了几次，感触很多，谢谢。
大数据框架之Spark框架
周宇羚: Spark主要是具有一站式处理功能，也就是实时计算、离线批处理、交互式查询、机器学习、分布式图计算等。从实时计算模型、实时计算延迟度、事务机制、健壮性和动态调整并行度来说，Spark没办法和Storm相比较。blog.zhouyuling.top我博客，也是刚接触大数据，互相学习。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。