模型调优——交叉验证与网格搜索

玫瑰花的葬礼。

已于 2022-08-30 16:12:35 修改

阅读量2.9k

点赞数 1

分类专栏： ai码电瓶车 python 文章标签：决策树机器学习算法

于 2022-01-29 09:04:23 首次发布

本文链接：https://blog.csdn.net/nmb_jiang/article/details/122725246

版权

python 同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

ai码电瓶车

4 篇文章 0 订阅

订阅专栏

在进行模型的测试时，我们会将数据分为训练集和测试集。在给定的样本数据中，拿出大部分的数据作为训练集去训练模型，剩余的部分作为测试集对刚建立的模型进行预测。一般测试集的数据占比取25%。为了让建立出的模型更加准确可信，需要采取一些方法对模型进行优化。

交叉验证

N折交叉验证： 将样本数据平均分成k份（k折交叉验证，10折交叉验证最常用）子样本数据（除测试集以外），其中一份子样本数据被保留成验证集数据，剩余的k-1份样本数据作为训练集用于进行训练。每个子样本都会经过一次验证集数据进行处理，得出一个准确率（accuracy），交叉重复k次之后，得出k个准确率，然后将k个准确率进行求平均或者结合其他方式得出最终的一个单一准确率。
如下图所示，5折交叉验证，全部可用数据集分成五个集合，每次迭代都选其中的1个集合数据作为验证集，另外4个集合作为训练集，经过5组的迭代过程。
在这里插入图片描述
交叉验证的好处在于：

可以保证所有数据都有被训练和验证的机会，也尽最大可能让优化的模型性能表现的更加可信；
从有限的学习数据获取尽可能多的有效信息；
可以在一定程度上避免过拟合的问题。

网格搜索

指定参数值的一种穷举搜索方法，在机器学习中，通过将估计器（estimator）的超参数（比如k-近邻算法中的n_neighbors）进行交叉验证得出最优的学习算法，进行模型选择。通常情况下，网格搜索和交叉验证一起伴随使用。下面以决策树为例进行模型的选择。

from sklearn.model_selection import GridSearchCV
rf = RandomForestClassifier()
params = {'n_estimators': [120, 200, 300, 500, 800, 1200], 'max_depth': [5, 8, 15, 25, 30]}
gs = GridSearchCV(estimator=rf, param_grid=params)
gs.fit(x_train, y_train)
print(f'预测结果：{gs.score(x_test, y_test)}')
print(f'选择的参数模型：{gs.best_params_}')

estimator：估计器对象。
param_grid：估计器的参数，也就是超参数。
fit：输入训练数据。

在我们学习人工智能的过程中，经常会使用到交叉验证和网格搜索对算法进行优化，比如KNN、线性回归、逻辑回归以及神经网络等等。

玫瑰花的葬礼。

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
3
评论
模型调优——交叉验证与网格搜索

一般在进行模型的测试时，我们会将数据分为训练集和测试集。在给定的样本数据中，拿出大部分的数据最为训练集去训练模型，剩余的部分作为测试集对刚建立的模型进行预测。一般测试集的数据占比取25%。为了让建立出的模型更加准确可信，需要采取一些方法对模型进行优化。交叉验证将除测试集以外的数据分成n等份子样本数据（n折交叉验证，10折交叉验证最常用），其中一个等份子样本数据被保留成验证集数据，剩余的n-1份样本数据作为训练集用于进行训练。每个子样本都会经过一次验证集数据进行处理，得出一个估测，交叉重复n次之后，得出n
复制链接

扫一扫