一、决策树分类器第三方库参数及涉及的函数参数介绍
(1)DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None,min_samples_split=2, min_samples_leaf=1,min_weight_fraction_leaf=0.0,
max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)
criterion:用于指定选择节点字段的评价指标,对于分类决策树,默认为'gini',表示采用基尼指数选择节点的最佳分割字段;对于回归决策树,默认为'mse',表示使用均方误差选择节点的最佳分割字段
splitter:用于指定节点中的分割点选择方法,默认为'best',表示从所有的分割点中选择最佳分割点;如果指定为'random',则表示随机选择分割点
max_depth:用于指定决策树的最大深度,默认为None,表示树的生长过程中对深度不做任何限制
min_samples_split:用于指定根节点或中间节点能够继续分割的最小样本量, 默认为2
min_samples_leaf:用于指定叶节点的最小样本量,默认为1
min_weight_fraction_leaf:用于指定叶节点最小的样本权重,默认为None,表示不考虑叶节点的样本权值
max_features:用于指定决策树包含的最多分割字段数,默认为None,表示分割时使用所有的字段,与指定'auto'效果一致;如果为具体的整数,则考虑使用对应的分割字段数;如果为0~1的浮点数,则考虑对应百分比的字段个数;如果为'sqrt',则表示最多考虑√𝑃个字段;如果为'log2',则表示最多使用〖𝑙𝑜𝑔〗_2 𝑃个字段
random_state:用于指定随机数生成器的种子,默认为None,表示使用默认的随机数生成器
max_leaf_nodes:用于指定最大的叶节点个数,默认为None,表示对叶节点个数不做任何限制
min_impurity_decrease:用于指定节点是否继续分割的最小不纯度值,默认为0
min_impurity_split:同参数min_impurity_decrease含义一致,该参数已在0.21版本剔除
class_weight:用于指定因变量中类别之间的权重,默认为None,表示每个类别的权重都相等;如果为balanced,则表示类别权重与原始样本中类别的比例成反比;还可以通过字典传递类别之间的权重差异,其形式为{class_label:weight}
presort:bool类型参数,是否对数据进行预排序,默认为False。如果数据集的样本量比较小,设置为True可以提高模型的执行速度;如果数据集的样本量比较大,则不易设置为True
(2)sklearn.model_selection .GridSearchCV(estimator, param_grid, scoring=None, n_jobs=None, iid=’warn’, refit=True, c