数据建模调参

最新推荐文章于 2023-08-02 23:15:00 发布

lcx_nanmu

最新推荐文章于 2023-08-02 23:15:00 发布

阅读量655

点赞数

文章标签：数据挖掘机器学习深度学习

本文链接：https://blog.csdn.net/lcx_nanmu/article/details/105255356

版权

数据建模调参

1、模型性能验证：
- 交叉验证方法
- 曲线验证模型效果
2、模型调参：

1、模型性能验证：

交叉验证方法

贴一张原理图（以10折交叉验证为例）
在这里插入图片描述
k折交叉验证步骤：
Step 1:使用不重复抽样将原始数据随机分为k份；
Step 2:其中k-1份数据用于模型训练，剩下的那1份数据用于测试模型；
Step 3:重复Step 2 k次，得到k个模型和他的评估结果。
Step 4:计算k折交叉验证结果的平均值作为参数/模型的性能评估。

曲线验证模型效果

模型准确率反馈了模型的效果，大家看下图
在这里插入图片描述
1）左上角子的模型偏差很高。它的训练集和验证集准确率都很低，很可能是欠拟合。解决欠拟合的方法就是增加模型参数，比如，构建更多的特征，减小正则项。
2）右上角子的模型方差很高，表现就是训练集和验证集准确率相差太多。解决过拟合的方法有增大训练集或者降低模型复杂度，比如增大正则项，或者通过特征选择减少特征数。
3）右下角的模型就很好。

2、模型调参：

模型可调参数及范围选取的参考：
在这里插入图片描述

贪心调参方法

拿当前对模型影响最大的参数调优，直到最优化；再拿下一个影响最大的参数调优，如此下去，直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优，但是省时间省力。

网格调参方法

网格搜索(grid search)，作为调参很常用的方法，在我们的机器学习算法中，有一类参数，需要人工进行设定，我们称之为“超参”，也就是算法中的参数，比如学习率、正则项系数或者决策树的深度等。网格搜索就是要找到一个最优的参数，从而使得模型的效果最佳，而它实现的原理其实就是暴力搜索；即我们事先为每个参数设定一组值，然后穷举各种参数组合，找到最好的那一组。
网格搜索的结果获得了指定的最优参数值，c为1GridSearchCV中param_grid参数是字典构成的列表。对于线性SVM，我们只评估参数C；对于RBF核SVM，我们评估C和gamma。最后，我们通过best_parmas_得到最优参数组合。
网格搜索虽然不错，但是穷举过于耗时，sklearn中还实现了随机搜索，使用 RandomizedSearchCV类，随机采样出不同的参数组合