模型调优——交叉验证与网格搜索

在进行模型的测试时,我们会将数据分为训练集测试集。在给定的样本数据中,拿出大部分的数据作为训练集去训练模型,剩余的部分作为测试集对刚建立的模型进行预测。一般测试集的数据占比取25%。为了让建立出的模型更加准确可信,需要采取一些方法对模型进行优化。

交叉验证

N折交叉验证: 将样本数据平均分成k份(k折交叉验证,10折交叉验证最常用)子样本数据(除测试集以外),其中一份子样本数据被保留成验证集数据,剩余的k-1份样本数据作为训练集用于进行训练。每个子样本都会经过一次验证集数据进行处理,得出一个准确率(accuracy),交叉重复k次之后,得出k个准确率,然后将k个准确率进行求平均或者结合其他方式得出最终的一个单一准确率。
如下图所示,5折交叉验证,全部可用数据集分成五个集合,每次迭代都选其中的1个集合数据作为验证集,另外4个集合作为训练集,经过5组的迭代过程。
在这里插入图片描述
交叉验证的好处在于:

  • 可以保证所有数据都有被训练和验证的机会,也尽最大可能让优化的模型性能表现的更加可信;
  • 从有限的学习数据获取尽可能多的有效信息;
  • 可以在一定程度上避免过拟合的问题。

网格搜索

指定参数值的一种穷举搜索方法,在机器学习中,通过将估计器(estimator)的超参数(比如k-近邻算法中的n_neighbors)进行交叉验证得出最优的学习算法,进行模型选择。通常情况下,网格搜索和交叉验证一起伴随使用。下面以决策树为例进行模型的选择。

from sklearn.model_selection import GridSearchCV
rf = RandomForestClassifier()
params = {'n_estimators': [120, 200, 300, 500, 800, 1200], 'max_depth': [5, 8, 15, 25, 30]}
gs = GridSearchCV(estimator=rf, param_grid=params)
gs.fit(x_train, y_train)
print(f'预测结果:{gs.score(x_test, y_test)}')
print(f'选择的参数模型:{gs.best_params_}')

estimator:估计器对象。
param_grid:估计器的参数,也就是超参数。
fit:输入训练数据。

在我们学习人工智能的过程中,经常会使用到交叉验证和网格搜索对算法进行优化,比如KNN、线性回归、逻辑回归以及神经网络等等。

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值