分类决策树原理及sklearn.tree.DecisionTreeClassifier参数说明

耳东鹏

已于 2022-06-16 15:50:39 修改

阅读量9.4k

点赞数 16

分类专栏：数据挖掘算法文章标签：决策树 sklearn 分类

于 2019-07-22 19:15:48 首次发布

本文链接：https://blog.csdn.net/mr_trustin/article/details/96886157

版权

数据挖掘算法专栏收录该内容

5 篇文章 1 订阅

订阅专栏

一）前言
决策树这个算法说起来很简单，思路也很简单明了。但是如果你深入了解一下，里面的内容也相当的丰富，能细讲的也很多。决策树可以用于分类，也可以用于回归，今天这篇文章，主要总结了分类决策树原理，以及Sklearn库中分类决策树的使用参数，最后我还会用前面讲的网格搜索对分类决策树的参数进行优化。如果有哪些讲述的不太准确，还请大家在评论区指正。

二）决策树原理
决策树是一种类似于流程图的树结构，其中，每个内部结点（非树叶结点）表示在一个属性上的测试，每个分枝代表该测试的一个输出，而每个树叶结点（终端结点）存放一个类标号。树的最顶层结点是根结点。
核心思想：相似的输入必会产生相似的输出。
第一步：从训练样本矩阵中选择第一个特征进行子表的划分，使每个子表中该特征的值全部相同。
第二步：再在每个子表中选择下一个特征按照同样的规则划分更小的子表，
第三步：不断重复步骤一，二，直到所有特征全部使用完为止。此时便得到了叶级子表，其中所有的特征值完全相同。

对于待预测样本，根据其每一个特征的值，选择对应的子表，逐一匹配，找到与之完全匹配的叶级子表，用该子表中样本的输出，通过平均(回归问题)或投票(分类)的方式为待预测样本提供输出。

我画一个图出来，可能大家会更好理解（每个特征假定只有两个变量）

特征1	特征2	特征3	结果
1	6	3	100
2	9	5	120
1	6	5	200
。。。	。。。	。。。	。。。

在这里插入图片描述

三）sklearn.tree.DecisionTreeClassifier参数说明
先贴个官方文档：
https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

sklearn.tree.DecisionTreeClassifier(
criterion=’gini’,
splitter=’best’,
max_depth=None,
min_samples_split=2,
min_samples_leaf=1,
min_weight_fraction_leaf=0.0,
max_features=None,
random_state=None,
max_leaf_nodes=None,
min_impurity_decrease=0.0,
min_impurity_split=None,
class_weight=None,
presort=False)

1、criterion: 特征选取标准。
默认：gini。
可选gini（基尼系数）或者entropy（信息增益）。

1.1选择entropy，则是ID3或C4.5算法。
ID3算法原理：
a 计算训练集所有样本的信息熵。
b 计算每一特征分类后的信息增益。
c 选择信息增益最大的特征进行分类，得到子节点。
d 在还未被选择的特征中迭代b和c，直到无特征可分或信息增益已经无法达到要求的标准时，算法终止。
计算公式说明：
在这里插入图片描述

C4.5算法原理：
C4.5是在ID3的算法基础上，采用信息增益率来做为特征选择，通过增加类别的惩罚因子，规避了ID3中类别越多信息增益越大的问题，同时也可以对连续变量通过均值离散化的方式，解决了ID3算法无法处理连续变量的问题。过程和ID3一样。
计算公式说明：
在这里插入图片描述

1.2通常选择gini，则是CART算法。
我简单描述一下CART算法原理：
CART不再通过信息熵的方式选取最优划分特征，而是采用基尼系数，也叫基尼不纯度，两者衡量信息量的作用相当，但是基尼系数由于没有对数运算，可大大减少计算开销。
当然CART相对于ID3,C4.5最大的优势就是可以处理回归问题。CART算法处理分类问题时，以叶子节点上样本投票预测类别，处理回归问题时，以叶子节点的样本均值作为预测值。
CART算法的过程如下：
a 计算训练集所有样本的基尼系数。
b 计算某一特征下每一属性划分后左右两边的基尼系数，找到基尼系数和最小的划分属性。
c 将每一个特征均按b中的方法计算，得到每一个特征最佳的划分属性。
d 对比c中每一个特征的最优划分属性下的基尼系数和，最小的就是最优的划分特征。
e 按最优的特征及最优属性划分，得到子节点。
f 在还未被选择的特征中迭代b-e，直到无特征可分或信息增益率已经无法达到要求的标准时，算法终止。
gini系数公式及举例：
在这里插入图片描述

1.3 两种算法差异不大对准确率无影响，信息墒的运行效率低一点，因为它有对数运算.一般说使用默认的基尼系数”gini”就可以了，即CART算法。

splitter: 特征划分标准
可选best或random，默认为best。
best是在特征的全部划分点中找到最优的划分点，比如基于信息增益分类时，则选择信息增益最大的特征点。
random是在随机选择的部分划分点找到局部最优的划分点，具体是如何随机选择的部分划分点的，我也不清楚，这个需要查看源码才知道。如果你看到了这篇文章，恰好又知道其中原理，不妨留言交流下。
一般在样本量不大的时候，选择best，样本量过大，用random。

3.max_depth:决策树最大深度
默认为None。
一般来说，数据少或者特征少的时候可以不管这个值。如果模型样本量多，特征也多的情况下，推荐限制这个最大深度，具体的取值取决于数据的分布。常用的可以取值10-100之间。常用来解决过拟合

min_samples_split:内部节点再划分所需最小样本数
默认为2。
意义：如果节点上的样本已经低于这个值，则不会再寻找最优的划分点进行划分，且以该结点作为叶子节点。样本过多的情况下，可以设定一个阈值，具体可根据业务需求和数据量来定。可以输入一个具体的值（int），或小于1的数（float类型，会根据样本量计算百分比）。

5.min_samples_leaf：叶子节点所需最少样本数
默认为1。
意义：如果达不到这个阈值，则同一父节点的所有叶子节点均被剪枝，这是一个防止过拟合的参数。可以输入一个具体的值（int），或小于1的数（float类型，会根据样本量计算百分比）。

6.min_weight_fraction_leaf：叶子节点所有样本权重和
默认为0。
意义：如果低于阈值，则会和兄弟节点一起被剪枝，默认是0，就是不考虑权重问题。这个一般在样本的分布类别偏差很大，或有较多缺失值的情况下会考虑，这时我们就要注意这个值了。

7.max_features：划分考虑最大特征数
默认为None。
意义：不输入则默认全部特征，可以选 log2N,sqrt(N),auto或者是小于1的浮点数（百分比）或整数（具体数量的特征）。如果特征特别多时，比如大于50，可以考虑选择auto来控制决策树的生成时间。

8.random_state：随机数生成种子
默认为：None。
意义：设置随机数生成种子是为了保证每次随机生成的数是一致的（即使是随机的）；如果不设置，那么每次生成的随机数都是不同的。

9.max_leaf_nodes：最大叶子节点数
默认为:None。
意义：防止过拟合，默认不限制，如果设定了阈值，那么会在阈值范围内得到最优的决策树。
如果特征不多，可以不考虑这个值，但是如果特征分成多的话，可以加以限制，具体的值可以通过交叉验证得到。

10.min_impurity_decrease：节点划分最小不纯度
默认为：0。
意义：这个值限制了决策树的增长，如果某节点的不纯度(基尼系数，信息增益)小于这个阈值，则该节点不再生成子节点。
sklearn 0.19.1版本之前叫 min_impurity_split。

11.class_weight：类别权重
默认为：None。
意义：在样本有较大缺失值，或类别偏差较大时可选，防止决策树向类别过大的样本倾斜。可设定None或者balanced，后者会自动根据样本的数量分布计算权重，样本数少则权重高，与min_weight_fraction_leaf对应。
不适用于回归树 sklearn.tree.DecisionTreeRegressor

12.Presort：是否排序
默认为：False。

模型参数选择的几项建议：
1.样本少数量但是样本特征非常多的时候，决策树很容易过拟合，在拟合决策树模型前，推荐先做维度规约，比如主成分分析（PCA），特征选择（Losso）。这样特征的维度会大大减小。再来拟合决策树模型效果会好。
在训练模型先，注意观察样本的类别情况（主要指分类树），如果类别分布非常不均匀，就要考虑用class_weight来限制模型过于偏向样本多的类别。

接下来，用sklearn.tree.DecisionTreeClassifier来做泰坦尼克号的预测，来演示下各参数的应用。由于文章篇幅有限，具体的代码讲解放在一下篇文章中。
注：2022:-06-15日，对ID3,C4.5，CART算的公式做了补充说明

耳东鹏

关注

16
点赞
踩
69

收藏

觉得还不错? 一键收藏
1
评论
分类决策树原理及sklearn.tree.DecisionTreeClassifier参数说明

一）前言决策树这个算法说起来很简单，思路也很简单明了。但是如果你深入了解一下，里面的内容也相当的丰富，能细讲的也很多。决策树可以用于分类，也可以用于回归，今天这篇文章，主要总结了决策树回归原理，以及Sklearn库中决策树的使用参数，最后我还会用前面讲的网格搜索对回归决策树的参数进行优化。如果有哪些讲述的不太准确，还请大家在评论区指正。二）决策树原理核心思想：相似的输入必会产生相似的输出。.........
复制链接

扫一扫

专栏目录