sklearn决策树之random_state & splitter

最新推荐文章于 2024-08-23 20:04:58 发布

Zen of Data Analysis

最新推荐文章于 2024-08-23 20:04:58 发布

阅读量4.8k

点赞数 4

分类专栏：机器学习算法 Python 文章标签：机器学习算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gracejpw/article/details/102217974

版权

本文探讨了在sklearn中决策树模型的random_state和splitter参数如何影响模型稳定性和防止过拟合。random_state用于控制分支过程中的随机模式，设置为整数可确保模型重复性；splitter参数决定分支时是否优先考虑重要特征，'best'倾向于选择更重要特征，'random'则增加随机性，可能导致更深更复杂的树结构，有助于减少过拟合风险。

摘要由CSDN通过智能技术生成

在上一篇博文《决策树的sklearn实现》中，我们建立了一棵完整的决策树，但是如果在建立模型时不设置random_state的数值，score会在某个值附近波动，引起画出来的每一棵树都不一样。它为什么会不稳定呢？如果使用其他数据集，它还会不稳定吗？
无论决策树模型如何进化，在分支上的本质都还是追求某个不纯度相关指标的优化，而不纯度是基于结点计算的，也就是说，决策树在建树时，是靠优化节点来追求一棵优化的树，但最优的结点能够保证最优的树吗？集成算法被用来解决这一问题：sklearn表示，既然一棵树不能保证最优，那就建更多的不同的树，然后从中取最好的。怎样从一组数据集中建不同的树？在每次分支时，不用全部特征，而是随机选取一部分特征，从中选取不纯度相关指标最优的作为分支用的结点。这样，每次生成的树也就不同了。

clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=100) 
clf

最低0.47元/天解锁文章

Zen of Data Analysis

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。