决策树模型

最新推荐文章于 2024-07-26 17:36:26 发布

@Youngpine

最新推荐文章于 2024-07-26 17:36:26 发布

阅读量2.6k

点赞数 3

分类专栏：机器学习文章标签： python

本文链接：https://blog.csdn.net/weixin_43328524/article/details/124005582

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

决策树模型

决策树模型还有些别的超参数，如下所示：

下面是分类决策树模型DecisionTreeClassifier()模型常用的一些超参数及它们的解释：

criterion：特征选择标准，取值为"entropy"信息熵和"gini"基尼系数，默认选择"gini"。
splitter：取值为"best"和"random"，"best"在特征的所有划分点中找出最优的划分点，适合样本量不大的情况，“random"随机地在部分划分点中找局部最优的划分点，适合样本量非常大的情况，默认选择"best”。
max_depth：决策树最大深度，取值为int或None，一般数据或特征比较少的时候可以不设置，如果数据或特征比较多时，可以设置最大深度进行限制。默认取‘None’。
min_samples_split：子节点往下划分所需的最小样本数，默认取2，如果子节点中的样本数小于该值则停止分裂。
min_samples_leaf：叶子节点的最少样本数，默认取1，如果小于该数值，该叶子节点会和兄弟节点一起被剪枝（即剔除该叶子节点和其兄弟节点，并停止分裂）。
min_weight_fraction_leaf：叶子节点最小的样本权重和，默认取0，即不考虑权重问题，如果小于该数值，该叶子节点会和兄弟节点一起被剪枝（即剔除该叶子节点和其兄弟节点，并停止分裂）。如果较多样本有缺失值或者样本的分布类别偏差很大，则需考虑样本权重问题。
max_features：在划分节点时所考虑的特征值数量的最大值，默认取None，可以传入int型或float型数据。如果是float型数据，表示百分数。
max_leaf_nodes：最大叶子节点数，默认取None，可以传入int型数据。
class_weight：指定类别权重，默认取None，可以取"balanced"，代表样本量少的类别所对应的样本权重更高，也可以传入字典指定权重。该参数主要是为防止训练集某些类别的样本过多，导致训练的决策树过于偏向这些类别。除了此处指定class_weight，还可以使用过采样和欠采样的方法处理样本类别不平衡的问题，过采样和欠采样将在第十一章：数据预处理讲解。
random_state：当数据量较大，或特征变量较多时，可能在某个节点划分时，会碰上两个特征变量的信息熵增益或者基尼系数减少量是一样的情况，那么此时决策树模型默认是随机从中选一个特征变量进行划分，这样可能会导致每次运行程序后生成的决策树不太一致。如果设定random_state参数（如设置为123）可以保证每次运行代码时，各个节点的分裂结果都是一致的，这在特征变量较多，树的深度较深的时候较为重要。