sklearn决策树之random_state & splitter

本文探讨了在sklearn中决策树模型的random_state和splitter参数如何影响模型稳定性和防止过拟合。random_state用于控制分支过程中的随机模式,设置为整数可确保模型重复性;splitter参数决定分支时是否优先考虑重要特征,'best'倾向于选择更重要特征,'random'则增加随机性,可能导致更深更复杂的树结构,有助于减少过拟合风险。
摘要由CSDN通过智能技术生成

在上一篇博文《决策树的sklearn实现》中,我们建立了一棵完整的决策树,但是如果在建立模型时不设置random_state的数值,score会在某个值附近波动,引起画出来的每一棵树都不一样。它为什么会不稳定呢?如果使用其他数据集,它还会不稳定吗?
无论决策树模型如何进化,在分支上的本质都还是追求某个不纯度相关指标的优化,而不纯度是基于结点计算的,也就是说,决策树在建树时,是靠优化节点来追求一棵优化的树,但最优的结点能够保证最优的树吗?集成算法被用来解决这一问题:sklearn表示,既然一棵树不能保证最优,那就建更多的不同的树,然后从中取最好的。怎样从一组数据集中建不同的树?在每次分支时,不用全部特征,而是随机选取一部分特征,从中选取不纯度相关指标最优的作为分支用的结点。这样,每次生成的树也就不同了。

clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=100) 
clf
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值