这篇主要简单的介绍 sklearn中实现决策树要用到的一些参数知识,以及操作的大概框架,方便后面使用sklearn实现决策树分类。有需要的还可以看下我的这篇博客https://blog.csdn.net/weixin_42305378/article/details/106118209,里面是不使用sklearn构造决策树的代码 以及 有关于信息熵等的知识。
首先先介绍下sklearn中的决策树主要有以下几个参数:
七个参数:Criterion,两个随机性相关的参数(random_state,splitter),四个剪枝参数(max_depth, ,min_sample_leaf,max_feature,min_impurity_decrease)
一个属性:feature_importances_
四个接口:fit,score,apply,predict
- Criterion这个参数正是用来决定不纯度的计算方法的。不纯度 : 用来衡量决策树找到最佳节点和最佳分支的指标 ,不纯度越低,决策树对训练集的拟合性也好。sklearn提供了两种选择:
1)criterion="entropy": 使用信息熵 ,