各算法参数详解

最新推荐文章于 2023-02-19 11:19:29 发布

choven_meng

最新推荐文章于 2023-02-19 11:19:29 发布

阅读量456

点赞数

分类专栏：机器学习/数据挖掘文章标签：决策树 python 机器学习算法

本文链接：https://blog.csdn.net/choven_meng/article/details/117223433

版权

本文详细探讨了树模型中的决策树分类模型，包括其参数解释，如数据量占比（samples）和基尼指数（gini）。此外，还提及了LGB模型的相关内容。

摘要由CSDN通过智能技术生成

一、树模型

决策树分类模型

from sklearn import tree
import pydotplus #决策树可视化
from IPython.display import Image

Yt = df[train_y_col] # Y标签。
Xt = df[train_x_col].fillna(0) # X特征List
clf = tree.DecisionTreeClassifier(criterion='gini', # 选择切点使用的算法，默认是Gini系数。
                                  splitter='best', # 切点使用的方法，默认是best最优。
                                  max_depth=4, # 树的最大层数，一般最好四层以内。
                                  min_samples_split=100, # 最小切点样本量，低于这个数字则不再分支。
                                  min_samples_leaf=50, # 最小的叶子节点数，低于这个数字则不再分支。
                                  max_leaf_nodes=12, # 最大的叶子节点数，即最多这么多叶子，多余的将会被剪枝。
                                  class_weight={0:0.8,1:1}, # 标签0和1的样本权重。
                                  min_impurity_decrease=0.0) # 最小的信息熵阈值，低于这个数字则不再分支。
clf = clf.fit(Xt,Yt)
dot_data = tree.export