sklearn之决策树参数详解

喽哥

已于 2023-09-18 00:58:42 修改

阅读量8.2k

点赞数 30

分类专栏： sklearn机器学习模型参数详解文章标签：决策树 sklearn 机器学习 python

于 2022-01-01 17:43:24 首次发布

本文链接：https://blog.csdn.net/SKIp121whats112/article/details/122265766

版权

机器学习之决策树（sklearn库函数详解）

1 sklearn.tree
2 四种树模型的介绍
3 完结撒花

如果你觉得这篇文章对你有帮助，记得点赞收藏哦。在这片文章中我将详细介绍sklearn.tree模型怎么使用，我查阅了很多资料，源码，国内外论坛，甚至查看了论文，解答了一些函数调用的疑惑，文章接着往下看，保证是干货。
（ps：这篇文章适合对决策树理论已经有详细了解的人阅读）可以查看我先前的文章理解理论知识:
机器学习之决策树（原理篇）

1 sklearn.tree

如果你有查看sklearn的官方文档，你就知道一共有4个简单的决策树模型，并且都被封装在了sklearn.tree中。它们分别是：

tree.DecisionTreeClassifier 分类树
tree.DecisionTreeRegressor 回归树
tree.ExtraTreeClassifier 额外的分类树（极其随机的分类树）
tree.ExtraTreeRegressor 额外的回归树（极其随机的回归树）

4种算法都可以选择性的使用信息熵或基尼系数作为分类标准，但信息熵并不影响它们是基于CART算法设计并改进的的。

2 四种树模型的介绍

我这里其实只需要全面介绍一种最经典的tree.DecisionTreeClassifier，其它三个就在它的改进上介绍进行，而且4者源代码几乎所有部分都是相同的。我将会以决策树构建的三要素，节点的选择，决策树的生成以及剪枝展开介绍。

一 tree.DecisionTreeClassifier

ⅰ 分支节点选择的参数

其实节点的选择有两个重要的参数，分别是

1 criterion：{
   “gini”, “entropy”}, default=”gini”
2 splitter：{
   “best”, “random”}, default=”best”

① criterion

这个参数代表你想选择的是信息熵或者基尼指数，决策树默认的是基尼指数。
你可能会问这两个参数选哪一个比较好，我可以告诉你绝大多数情况下默认gini系数就对了，没必要去动。原因是首先很多情况下它们两的实际效果差异几乎没啥区别。

但有些点要注意，一是信息熵对错误的分类相比基尼系数更加严格，更容易差生过拟合。二是信息熵由于公式中带对数计算，而基尼系数是平方，导致前者生成的树计算时间更长，在特征很多的时候表较明显。一般你要处理特征特别多的数据，也是基尼指数更好的，更快。默认就行，改变这个参数几乎不会对模型效果有啥影响。如果你想建造两棵不一样的决策树，倒是可以两个都试一下。

② splitter

这个参数有必要好好讲讲。因为目前网上，不说绝对，有90％的说法是错误的，我也是查阅了很多资料才搞明白。
这个参数默认是 splitter = ‘‘best’‘，它还有一个选项是random。

如果你选择默认的best。那么对于离散特征 $A$ ，假设有三个分类 $A_1$ ， $A_2$ ， $A_3$ 与连续特征 $B$ 来判断那个特征该是分支节点，并且分裂点具体是哪个。（看到这里，你必须清楚CART算法的原理才能继续下去）。我们知道CART算法是严格生成二叉树的，CART是如何判断特征 $A$ 还是 $B$ 作为分支节点的呢，CART算法会先对连续特征 $B$ ，与 $A$ 进行信息增益比或基尼系数的计算，得到两者的数值。