机器学习算法--sklearn 中决策树分类模型sklearn.tree.DecisionTreeClassifier()参数详解

最新推荐文章于 2022-08-14 13:19:56 发布

糯米君_

最新推荐文章于 2022-08-14 13:19:56 发布

阅读量2.8k

点赞数

分类专栏：机器学习算法文章标签：决策树分类

本文链接：https://blog.csdn.net/fgg1234567890/article/details/115577553

版权

机器学习算法专栏收录该内容

43 篇文章 8 订阅

订阅专栏

from sklearn.tree import DecisionTreeClassifier

'''
参数：
    criterion:特征选择的标准，有信息增益和基尼系数两种，使用信息增益的是ID3和C4.5算法（使用信息增益比），使用基尼系数的CART算法，默认是gini系数。
    
    splitter:特征切分点选择标准，决策树是递归地选择最优切分点，spliter是用来指明在哪个集合上来递归，有“best”和“random”两种参数可以选择，
    best表示在所有特征上递归，适用于数据集较小的时候，random表示随机选择一部分特征进行递归，适用于数据集较大的时候。
    
    max_depth:决策树最大深度，决策树模型先对所有数据集进行切分，再在子数据集上继续循环这个切分过程，max_depth可以理解成用来限制这个循环次数。
    或者： int or None, optional (default=None) 设置决策随机森林中的决策树的最大深度，深度越大，越容易过拟合，推荐树的深度为：5-20之间。
    
    min_samples_split:子数据集再切分需要的最小样本量，默认是2，如果子数据样本量小于2时，则不再进行下一步切分。如果数据量较小，使用默认值就可，
    如果数据量较大，为降低计算量，应该把这个值增大，即限制子数据集的切分次数。
    
    min_samples_leaf:叶节点（子数据集）最小样本数，如果子数据集中的样本数小于这个值，那么该叶节点和其兄弟节点都会被剪枝（去掉），该值默认为1。
    
    min_weight_fraction_leaf:在叶节点处的所有输入样本权重总和的最小加权分数，如果不输入则表示所有的叶节点的权重是一致的。
    
    max_features:特征切分时考虑的最大特征数量，默认是对所有特征进行切分，也可以传入int类型的值，表示具体的特征个数；也可以是浮点数，
    则表示特征个数的百分比；还可以是sqrt,表示总特征数的平方根；也可以是log2，表示总特征数的log个特征。
    
    random_state:随机种子的设置，与LR中参数一致。
    
    max_leaf_nodes:最大叶节点个数，即数据集切分成子数据集的最大个数。
    
    min_impurity_decrease:切分点不纯度最小减少程度，如果某个结点的不纯度减少小于这个值，那么该切分点就会被移除。
    
    min_impurity_split:切分点最小不纯度，用来限制数据集的继续切分（决策树的生成），如果某个节点的不纯度（可以理解为分类错误率）小于这个阈值，那么该点的数据将不再进行切分。
    
    class_weight:权重设置，主要是用于处理不平衡样本，与LR模型中的参数一致，可以自定义类别权重，也可以直接使用balanced参数值进行不平衡样本处理。
    
    presort:是否进行预排序，默认是False，所谓预排序就是提前对特征进行排序，我们知道，决策树分割数据集的依据是，优先按照信息增益/基尼系数大的特征来进行分割的，
    涉及到大小就需要比较，如果不进行预排序，则会在每次分割的时候需要重新把所有特征进行计算比较一次，如果进行了预排序以后，则每次分割的时候，只需要拿排名靠前的特征就可以了。
'''
model = DecisionTreeClassifier(criterion='gini',
                                splitter='best',
                                max_depth=None,
                                min_samples_split=5,
                                min_samples_leaf=1,
                                min_weight_fraction_leaf=0.0,
                                max_features=None,
                                random_state=None,
                                max_leaf_nodes=None,
                                min_impurity_decrease=0.0,
                                min_impurity_split=None,
                                class_weight=None,
                                presort=False)

糯米君_

关注

0
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法--sklearn 中决策树分类模型sklearn.tree.DecisionTreeClassifier()参数详解

from sklearn.tree import DecisionTreeClassifier'''参数： criterion:特征选择的标准，有信息增益和基尼系数两种，使用信息增益的是ID3和C4.5算法（使用信息增益比），使用基尼系数的CART算法，默认是gini系数。 splitter:特征切分点选择标准，决策树是递归地选择最优切分点，spliter是用来指明在哪个集合上来递归，有“best”和“random”两种参数可以选择， best表示在所有特征上递归，适
复制链接

扫一扫