《机器学习：算法原理和编程实践》3：决策树的发展

最新推荐文章于 2021-11-06 17:41:37 发布

CopperDong

最新推荐文章于 2021-11-06 17:41:37 发布

阅读量1k

点赞数

分类专栏：实践1：统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QFire/article/details/80951432

版权

实践1：统计学习方法专栏收录该内容

5 篇文章 1 订阅

订阅专栏

1、决策树的算法框架

决策树的主函数

计算最优特征子函数：ID3用信息增益、C4.5用信息增益率、CART用节点方差的大小等。

信息熵：用来表示任何一种能量在空间中分布的均匀程度。能量分布得越均匀，熵就越大。在决策树中，它不仅能用来度量类别的不确定性，也可以用来度量包含不同特征的数据样本与类别的不确定性。

CART算法是目前决策树算法中最为成熟的一类算法，应用范围也比较广泛。

在回归树中，数据集均为连续性的。连续数据的处理方法与离散数据不同，离散数据是按每个特征的取值来划分，而连续特征则要计算出最优划分点。但在连续数据集上计算线性相关度非常简单，算法思想来源于最小二乘法。

剪枝策略：因为使用连续性数据，CART可以生长出大量的分支树，为了避免过拟合的问题，预测树采用了剪枝的方法。主流的剪枝方法有两类：先剪枝和后剪枝。先剪枝给出一个预定义的划分阈值，当节点的划分子集某个标准低于预定义的阈值时，子集划分将终止。后剪枝在完全生成的决策树上，根据一定的规则标准，剪掉树中不具备一般代表性的子树，使用叶子节点取而代之，进而形成一颗规模较小的新树。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。