决策树（一）：分类决策树

最新推荐文章于 2024-08-04 21:08:26 发布

会飞的犬良

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量6k

点赞数 1

分类专栏：机器学习文章标签：机器学习分类决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/things_use/article/details/101433489

版权

本文介绍了决策树的基本概念，包括分类决策树的性质和适用数据类型。讲解了决策树的学习过程，涉及特征选择、决策树生成和剪枝，以避免过拟合并提升泛化能力。信息增益熵和信息增益比被用于特征选择，ID3和C4.5算法用于决策树生成。最后讨论了决策树的剪枝策略，通过损失函数衡量模型复杂度与训练数据的拟合程度。

摘要由CSDN通过智能技术生成

决策树模型就是需要通过样本数据构建一棵树，数中除了叶子节点的每个节点都是一个数据特征的划分点，将待测数据的对应的特征和该节点上的划分特征做对比，然后将待测节点分到该节点的某个子节点上，然后再进行对比，直到叶子节点为止，然后判断待测数据的类型集合。

决策树是一种基本的分类和回归的方法，所以可以分为分类决策树和回归决策树。分类决策树主要适用于标称型数据（如苹果的颜色、形状、口味等特征数据），可以理解为非数值化的，回归树就适用于数值型数据，可以是连续型的数据。

决策树的学习过程是利用样本数据，依据损失函数最小化的原则建立决策树模型，其学习过程分为特征选择、决策树生成、决策树剪枝。特征选择就是依据损失最小化选择当前节点的划分标准是依据那个特征划分的；决策树的生成就是对每个节点选择合适的划分特征，直到结束的过程；决策树的剪枝就是防止过拟合，增加决策树泛化能力的过程。

下面先介绍分类回归树：

特征选择

特征选择就是为当前节点选择合适的划分属性，以符合损失最小的原则。通常在分类回归树的特征选择过程用到的是信息增益熵和信息增益比。

信息增益熵：

先从信息熵说起。在信息论与统计中，熵是随机变量不确定的度量。设X为随机变量，其概率分布为P(X=xi) = pi则X对应的信息熵为

最低0.47元/天解锁文章

会飞的犬良

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。