决策树使用全流程概述（sklearn)

cjhcjq122108

于 2024-03-20 19:30:28 发布

阅读量525

点赞数 5

文章标签：机器学习数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cjhcjq122108/article/details/136885864

版权

1. 数据集准备与预处理

1.1 导入数据

首先我们导入sklearn库中内置数据库，并将参数as_frame设置为True。这样jupyter中输出的格式好看点。返回值为字典，我们可以查看一下数据

1.2 查看缺失值情况

紧接着我们要查看数据是否存在缺失值的情况，可以使用pandas中的info函数

用同样的方法查看target，发现同样没有缺失值

1.3 查看数据分布情况

使用pd.value_counts查看数据分布情况，以决定是否需要调整数据权重，或者采用过采样，欠采样等方法进行处理

数据分布均匀，无需调整

1.4 构造额外特征

原始数据的特征只有4个，过少。我们可以构建额外的特征来增加特征数量。在经过初步训练和评估后，我们再对特征进行筛选。

我们决定构造sepal_size=sepal_lengthsepal_width，petal_size=petal_lengthpetal_width两个额外的特征。当然，也有许多其他的特征构造方法，例如：数据分层等等。但是由于这并不是完整的项目，所以只额外构造两个特征进行演示。

随后进行查看，已经成功插入

1.5 数据划分

随后我们对数据进行划分，可以采取pandas中的iloc方法

先查看类型，发现target是series类，所以不提供iloc方法。但是我们可以直接使用字符串切片操作。

2. 训练模型与验证集预测

调用sklearn中的决策树模型，使用fit函数进行训练，使用score函数进行验证集评估。发现正确率为83%。实际上，如果没有构造额外的特征的话，正确率仅有73%，之前尝试过。

同时，我们也可以通过feature_importances_查看特征重要度评估，惊喜的发现我们构建的petal_size特征居然起到了决定性的作用！（实际上，在原始的四个特征中petal的两个特征重要度最大）

3. 模型优化

如何才能使准确率更进一步呢？

3.1 使用集成算法

可以使用决策树的进阶版：随机森林（当然还有很多其他的算法，由于sklearn良好的封装习惯，基本上只要换一下名字就可以切换算法了）

没想到的是，正确率反而下降了。。。不过可以看到集成算法可以对每一个特征都有所关照了。

这也许是好事，说明它考虑的更多。当然也可能是坏事：特征太杂，被污染了。

3.2 筛选特征

上面我们提出了一个猜测“特征太杂，被污染了”。这里我们来试试删除一些特征，看看结果会如何。

根据之前的重要度，我们决定删去所有与sepal有关的特征。

随后开始训练，结果如下

好了，但是和使用决策树效果差不多。。。

我们再拿决策树试试，发现效果更好了一点（合着随机森林比不过决策树是吧）

4. 模型可视化

4.1 调用tree.plot函数

效果如下：

关注

5
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
决策树使用全流程概述（sklearn)

首先我们导入sklearn库中内置数据库，并将参数as_frame设置为True。这样jupyter中输出的格式好看点。返回值为字典，我们可以查看一下数据。
复制链接

扫一扫

cjhcjq122108 CSDN认证博客专家 CSDN认证企业博客

码龄2年

14: 原创

132万+: 周排名

8万+: 总排名

1万+: 访问

: 等级

295: 积分

116: 粉丝

157: 获赞

10: 评论

124: 收藏

私信

关注

热门文章

分类专栏

最新评论

手搓MBR实现ubuntu,win7双启动
CSDN-Ada助手: 恭喜您写了第13篇博客，内容也十分实用！对于手搓MBR实现双系统启动，确实是一项技术含量较高的操作，您的经验分享对于初学者来说无疑是一份宝贵的指导。希望您能继续坚持创作，分享更多技术经验和心得体会。不妨考虑写一些关于系统优化、软件推荐等方面的内容，相信会受到更多读者的欢迎。期待您的下一篇作品！
中断向量表修改（自定义时钟中断）
CSDN-Ada助手: 恭喜您发布了第14篇博客！自定义时钟中断的内容非常有趣，对中断向量表的修改也展现了您的深入研究。希望您能继续保持创作的热情和耐心，不断探索更多有趣的主题。或许在下一篇博客中，您可以分享一些关于中断处理程序的优化技巧，或者探讨一些与中断相关的实际案例。期待您更多精彩的内容！祝您创作愉快！
决策树使用全流程概述（sklearn)
CSDN-Ada助手: 恭喜您撰写了这篇关于决策树全流程概述的博客！对于使用sklearn进行决策树的学习和应用，您的解说很清晰详细，让读者能够更好地了解这一内容。希望您能继续保持创作的热情，为大家分享更多有价值的知识。或许在下一篇博客中，可以探讨一下决策树模型的调参技巧，或者与其他机器学习算法进行对比分析，这样可以让读者更全面地了解决策树的使用和优劣势。期待您的下一篇作品！
QEMU模拟器下完成win7与ubuntu双系统启动的详细过程与原理解释
CSDN-Ada助手: MySQL入门技能树或许可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
QEMU模拟器下完成win7与ubuntu双系统启动的详细过程与原理解释
CSDN-Ada助手: 推荐 MySQL入门技能树：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。