Python分类算法汇总-决策树算法（鸢尾花数据分类与预测)

最新推荐文章于 2024-03-30 17:16:08 发布

错落星辰.

最新推荐文章于 2024-03-30 17:16:08 发布

阅读量4.3k

点赞数 1

分类专栏： Python分类算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46068895/article/details/106636752

版权

本文介绍了决策树算法的基本原理，包括分裂属性、属性选择度量和剪枝策略。讨论了交叉验证的重要性，并详细解析了`train_test_split`函数和`tree.DecisionTreeClassifier`函数的使用。通过鸢尾花数据集，展示了决策树在分类问题上的应用，实现的模型在测试集上达到了97.37%的准确率。

摘要由CSDN通过智能技术生成

目录

决策树算法

决策树算法

原理

决策树是一种比较常用的分类算法，理解相对容易，所谓决策树分类就是用决策条件构成的一个树状预测模型，通过这个模型，我们可以对未知类别的数据进行分类。
例如：（评选三好学生）
在考虑某位同学是否有资格成为三好学生时，可能分别考虑他的品德，成绩，体育三个方面。
在这里插入图片描述
上述例子就不多于赘述，相信大家都能看明白。通过这个例子我们大概知道，决策树是一种树形结构，其中每个节点表示一个属性的测试；每个分支代表一个测试输出，每个叶子节点代表一种类别。

决策树的构造

使用属性选择度量来选择将元组最好地划分成不同的类的属性，进行属性选择度量确定各个特征属性之间的拓扑结构。
关键步骤：分裂属性。

分裂属性

分裂属性就是在某个节点处按照某一特征属性的不同划分构造不同的分支，其目标是让各个分裂子集尽可能地“纯”。尽可能“纯”就是尽量让一个分裂子集中待分类项属于同一类别。
分裂属性分为三种不同的情况：

属性是离散值且不要求生成二叉决策树。此时用属性的每一个划分作为一个分支。
属性是离散值且要求生成二叉决策树。此时使用属性划分的一个子集进行测试，按照“属于此子集”和“不属于此子集”分成两个分支。
属性是连续值。此时确定一个值作为分裂点split point，按照>split point和<=split point生成两个分支。

属性选择度量

关键性内容：进行属性选择度量，
属性选择度量是一种选择分裂准则，是将给定了类标记的训练集合划分，“最好”地分成个体类的启发式方法，它决定了拓扑结构及分裂点split point的选择。属性选择度量算法有很多，一般使用自顶向下递归分治法，并采用不回溯的贪心策略。
常用的算法：

ID3
C4.5。

剪枝

在实际构造决策树时，通常要进行剪枝，这是为了处理由于数据中的噪声和离群点导致的过分拟合问题。
剪枝有两种：

先剪枝——在构造过程中，当某个节点满足剪枝条件，则直接停止此分支的构造
后剪枝——先构造完成完整的决策树，再通过某些条件遍历树进行剪枝。

交叉验证

（将数据集分为测试集和训练集。）
因为在实际的训练中，训练的结果对于训练集的拟合程度通常还是挺好的（初试条件敏感），但是对于训

最低0.47元/天解锁文章

关注

1
点赞
踩
82

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。