sklearn.tree.DecisionTreeClassifier 调参

yun呐

于 2023-08-04 14:26:53 发布

阅读量86

点赞数

分类专栏：机器学习算法解析简单分析文章标签： sklearn 人工智能 python

本文链接：https://blog.csdn.net/qq_42645279/article/details/132103249

版权

机器学习算法解析简单分析专栏收录该内容

4 篇文章 0 订阅

订阅专栏

class sklearn.tree.DecisionTreeClassifier(*, criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, 
min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, 
min_impurity_split=None, class_weight=None, presort='deprecated', ccp_alpha=0.0)``

1、criterion：分裂节点所用的标准，可选“gini”, “entropy”，默认“gini”。“gini”, “entropy”是两个相似的函数参考https://www.cnblogs.com/uip001/p/15124874.html

2、splitter：用于在每个节点上选择拆分的策略。可选“best”, “random”，默认“best”。best在所有特征中找出最优切分点，适用于样本量不大的情景，random在部分特征中随机选出最优划分点。

3、max_depth：树的最大深度。如果为None，则将节点展开，直到所有叶子都是纯净的(只有一个类)，或者直到所有叶子都包含少于min_samples_split个样本。默认是None。

4、min_samples_split：拆分内部节点所需的最少样本数：如果为int，则将min_samples_split视为最小值。如果为float，则min_samples_split是一个分数，而ceil（min_samples_split * n_samples）是每个拆分的最小样本数。默认是2。

5、min_samples_leaf：在叶节点处需要的最小样本数。仅在任何深度的分割点在左分支和右分支中的每个分支上至少留下min_samples_leaf个训练样本时，才考虑。这可能具有平滑模型的效果，尤其是在回归中。如果为int，则将min_samples_leaf视为最小值。如果为float，则min_samples_leaf是分数，而ceil（min_samples_leaf * n_samples）是每个节点的最小样本数。默认是1。

6、min_weight_fraction_leaf：在所有叶节点处（所有输入样本）的权重总和中的最小加权分数。如果未提供sample_weight，则样本的权重相等。

7、max_features：寻找最佳分割时要考虑的特征数量：如果为int，则在每个拆分中考虑max_features个特征。如果为float，则max_features是一个分数，并在每次拆分时考虑int（max_features * n_features）个特征。如果为“auto”，则max_features = sqrt（n_features）。如果为“ sqrt”，则max_features = sqrt（n_features）。如果为“ log2”，则max_features = log2（n_features）。如果为None，则max_features = n_features。注意：在找到至少一个有效的节点样本分区之前，分割的搜索不会停止，即使它需要有效检查多个max_features功能也是如此。

8、random_state：随机种子，负责控制分裂特征的随机性，为整数。默认是None。

9、max_leaf_nodes：最大叶子节点数，整数，默认为None

10、min_impurity_decrease：如果分裂指标的减少量大于该值，则进行分裂。

11、min_impurity_split：决策树生长的最小纯净度。默认是0。自版本0.19起不推荐使用：不推荐使用min_impurity_split，而建议使用0.19中的min_impurity_decrease。min_impurity_split的默认值在0.23中已从1e-7更改为0，并将在0.25中删除。

12、class_weight：每个类的权重，可以用字典的形式传入{class_label: weight}。如果选择了“balanced”，则输入的权重为n_samples / (n_classes * np.bincount(y))。

13、ccp_alpha：将选择成本复杂度最大且小于ccp_alpha的子树。默认情况下，不执行修剪。

yun呐

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
sklearn.tree.DecisionTreeClassifier 调参

如果为float，则min_samples_leaf是分数，而ceil（min_samples_leaf * n_samples）是每个节点的最小样本数。4、min_samples_split：拆分内部节点所需的最少样本数：如果为int，则将min_samples_split视为最小值。如果为float，则min_samples_split是一个分数，而ceil（min_samples_split * n_samples）是每个拆分的最小样本数。如果未提供sample_weight，则样本的权重相等。
复制链接

扫一扫