【Python机器学习】模型评估与改进——参数过拟合的风险与验证集

本文链接：https://blog.csdn.net/weixin_39407597/article/details/140118000

我们尝试了许多不同的参数，并选择了在测试集上精度最高的那个，但这个精度不一定能推广到新数据上。

由于我们使用测试数据进行了调参，所以不能再用它来评估模型的好坏。我们最开始需要将数据划分为测试集和训练集也是这个原因，我们需要一个独立的数据集来进行评估，一个在创建模型时没有用到的数据集。

为了解决这个问题，有一种方法是再次划分数据集，这样我们就得到了3个数据集：用于构建模型的数据集、用于选择模型参数的验证集（开发集）、用于评估所选参数性能的测试集。

利用验证集选定最佳参数之后，我们可以利用找到的参数设置重新构建一个模型，但是要同时在训练数据和验证数据上进行训练。我们可以利用尽可能多的数据来构建模型。实现如下：

from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris=load_iris()

X_trainval,X_test,y_trainval,y_test=train_test_split(iris.data,iris.target,random_state=0)
X_train,X_valid,y_train,y_valid=train_test_split(X_trainval,y_trainval,random_state=1)


print('训练集大小：{} 开发集大小：{} 测试集大小：{}'.format(X_train.shape[0],X_valid.shape[0],X_test.shape[0]))

best_score=0

for gamma in [0.001,0.01,0.1,1,10,100]:
    for C in [0.001,0.01,0.1,1,10,100]:
        #对每种参数组合都训练一个SVC
        svm=SVC(gamma=gamma,C=C)
        svm.fit(X_train,y_train)
        score=svm.score(X_valid,y_valid)
        if score>best_score:
            best_score=score
            best_parameters={'C':C,'gamma':gamma}

svm=SVC(**best_parameters)
svm.fit(X_trainval,y_trainval)
test_score=svm.score(X_test,y_test)
print('最高精度：{:.2f}'.format(best_score))
print('最好参数组合：{}'.format(best_parameters))
print('测试集在最好模型的参数：{:.2f}'.format(test_score))