一、树模型
决策树分类模型
from sklearn import tree
import pydotplus #决策树可视化
from IPython.display import Image
Yt = df[train_y_col] # Y标签。
Xt = df[train_x_col].fillna(0) # X特征List
clf = tree.DecisionTreeClassifier(criterion='gini', # 选择切点使用的算法,默认是Gini系数。
splitter='best', # 切点使用的方法,默认是best最优。
max_depth=4, # 树的最大层数,一般最好四层以内。
min_samples_split=100, # 最小切点样本量,低于这个数字则不再分支。
min_samples_leaf=50, # 最小的叶子节点数,低于这个数字则不再分支。
max_leaf_nodes=12, # 最大的叶子节点数,即最多这么多叶子,多余的将会被剪枝。
class_weight={0:0.8,1:1}, # 标签0和1的样本权重。
min_impurity_decrease=0.0) # 最小的信息熵阈值,低于这个数字则不再分支。
clf = clf.fit(Xt,Yt)
dot_data = tree.export