交叉验证
定义:
是一种数据集的分割方法,将训练集划分为 n份,拿一份做验证集 (测试集)、其他n-1份做训练集
原理:
-
第一次:把第一份数据做验证集,其他数据做训练
-
第二次:把第二份数据做验证集,其他数据做训练
-
... 以此类推,总共训练4次,评估4次。
-
使用训练集+验证集多次评估模型,取平均值做交叉验证为模型得分
-
若k=5模型得分最好,再使用全部训练集(训练集+验证集) 对k=5模型再训练 一边,再使用测试集对k=5模型做评估
网格搜索
定义:
1.模型有很多超参数,其能力也存在很大的差异。需要手动产生很多超参数组合,来训练模型
2.每组超参数都采用交叉验证评估,最后选出最优参数组合建立模型。
组合:
1.交叉验证解决模型的数据输入问题(数据集划分)得到更可靠的模型
2.网格搜索解决超参数的组合
3.两个组合再一起形成一个模型参数调优的解决方案