第一篇 交叉验证器

我们以训练一个svm模型,然后验证它在测试集上的准确率为例:

from sklearn import datasets, svm
digits = datasets.load_digits()
X_digits = digits.data
y_digits = digits.target
svc = svm.SVC(C=1, kernel='linear')
svc.fit(X_digits[:-100], y_digits[:-100]).score(X_digits[-100:], y_digits[-100:])

我们这里是人工选择的最后100条作为验证集。但是由于数据分布会对模型的训练效果产生影响,并且我们也希望在这个数据集上多训练几个模型,这个时候我们就需要交叉验证。

from sklearn.model_selection import KFold, cross_val_score

k_fold = KFold(n_splits=5)

[svc.fit(X_digits[train], y_digits[train]).score(X_digits[test], y_digits[test]) for train, test in k_fold.split(X_digits)]

我们可以看到,我使用KFold进行了5折拆分数据,分别验证了5次拆分训练模型的效果。我们还可以借助cross_val_score函数查看5折拆分的训练结果。

cross_val_score(svc, X_digits, y_digits, cv=k_fold, n_jobs=-1)

out: array([0.96388889, 0.92222222, 0.9637883 , 0.9637883 , 0.93036212])

进一步,如果训练模型的时候有一些参数是可选的,但是我们不知道哪个好,我们可以将可选数据传到训练过程中,通过验证集来选,这时候就要用到GridSearchCV。
比如:在我们这个例子的svc = svm.SVC(C=1, kernel='linear')中这个参数“C”,我们可以提供一些候选集。

from sklearn.model_selection import GridSearchCV, cross_val_score
import numpy as np

Cs = np.logspace(-6, -1, 10) #从10^-6到10^-1,按对数等分10个数
svc = svm.SVC(C=1, kernel='linear')

clf = GridSearchCV(estimator=svc, param_grid=dict(C=Cs), n_jobs=-1) #默认3折交叉验证
clf.fit(X_digits[:1000], y_digits[:1000])
print(clf.best_score_)
print(clf.best_estimator_.C)

选出最好的C以后,我们就可以使用这个C去初始化我们的svc对象了。当然,还有更高级的用法,就是直接将选好的一批参数导入到新模型中,那个后续再聊!

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值