决策树分类:
CART决策树,采用不纯度分类
决策树参数:
1;超参数设置是为了防止决策树疯长,产生过拟合:
最小样本数:当节点的样本数小于某个数值的时候不再进行分类;
分割数:
最大叶节点数;
最大深度;
2;另外一种模式是任其生长,然后对模型进行剪枝
一:网格搜索
from sklearn.model_selection import GridSearchCV #网格搜索
网格搜索,就是在给定的字典参数里寻找最优的参数,缺点是:寻找到最优的参数是给定的,不一定是全局最优
learning_rate = [0.0001,0.001,0.01,0.1,0.2,0.3] #学习率
gamma = [1, 0.1, 0.01, 0.001]
dict(learning_rate = learning_rate,gamma = gamma)#转化为字典格式,网络搜索要求
结果显示:{‘learning_rate’: [0.0001, 0.001, 0.01, 0.1, 0.2, 0.3],
‘gamma’: [1, 0.1, 0.01, 0.001]}
二;贝叶斯最优
贝叶斯思想就是在先验的基础上进行调优,