分类树:
不纯度计算参数:criterion
两个参数:entropy(信息熵)(取值0~1),gini(基尼系数默认)(取值0~0.5)
两个控制随机性参数:random_state,splitter
剪枝参数:
max_depth:树的最大深度,超过的树枝被剪掉
min_samples_leaf&min_samples_split:限制叶子节点生长的参数
max_fettures:限制分支时考虑的特征个数,默认为总特征个数开平方取整
min_impurity_decrease:限制信息增益的大小
目标权重参数:
class_weight
完整样本标签平衡的参数,给少量标签更多的权重
min_weight_fraction_leaf
基于权重的剪枝参数
重要属性和接口
fetaure_importances_:每个特征的重要性
fit:训练数据
score
apply:返回每个测试样本所在的叶子节点的索引
predict:返回每个测试样本的分类/回归结果
回归树:
SSE:残和平方差 MSE*N
MSE:均方误差 = SSE/N 越小越好
交叉验证:
cross_val_score参数默认返回R平方
参数:(训练模型,x,y.cv(次数),scoring)
R平方: 1-SSE/总平方和 离1越近越好
scoring参数:默认返回R平方,最常用的是负均方误差(neg_mean_squared_error)
网络搜索:同时调整多个参数的技术
GridSrarchCV(训练模型,参数字典,cv)
.best_params_:返回输入的参数中的最佳组合
best_socre_:网格搜索后的模型的评判标准