上一篇文章已经讲了决策树的原理:模拟 人决策过程,按因素影响程度 从大到小,依次决策,得出最终结论。也讲了如何判断因素的影响程度的一种方法:信息增益越大,影响程度越大。也大致讲了递归构建决策树的过程,今天我们来使用sklearn实现决策树。
我不建议重复造轮子,除非当前轮子无法满足需求。sklearn实现决策树的核心代码就3句:
1.声明决策树模型
model=tree.DecisionTreeClassifier(
criterion="entropy" #这里使用entropy的方式,默认是gini
,random_state=30
,splitter="random" #随机划分属性,sklearn里面默认按属性的重要程度划分。
,max_depth=5 #层级数,有效解决过拟合的套路之一
,min_samples_leaf=10 #同上