sklearn kfold_sklearn函数：cross_val_score（交叉验证评分）

最新推荐文章于 2023-10-01 15:49:56 发布

weixin_39568083

最新推荐文章于 2023-10-01 15:49:56 发布

阅读量1k

点赞数 1

文章标签： sklearn kfold 验证集准确率上不去

v2-17d0f7461b2cecbbf0a6589e91ba7546_1440w.jpg?source=172ae18b

sklearn.model_selection.cross_val_score( estimator, X, y=None, *, groups=None, scoring=None, cv=None, n_jobs=None, verbose=0, fit_params=None, pre_dispatch='2*n_jobs', error_score=nan)

前面我们提到了4种分割数据集的方法，在分割完数据集后，我们训练模型，那模型的表现到底如何呢？我们可以使用这个函数来看模型的评分。

estimator：estimator object implementing ‘fit’

我们的算法模型

X：array-like of shape (n_samples, n_features)
y：array-like of shape (n_samples,) or (n_samples, n_outputs), default=None

我们的数据集

cv：int, cross-validation generator or an iterable, default=None

我们要进行的交叉验证的方法

几个常用的参数如上所示，下面，我们举几个小栗子。

KFold

关于KFold参考：

橘猫吃不胖：sklearn函数：KFold（分割训练集和测试集）zhuanlan.zhihu.com

对于K折交叉验证， K的取值，通常为3、5、10

import pandas as pd
import numpy as np

names = ['preg','plas','pres','skin','test','mass','pedi','age','class']
df = pd.read_csv('data/pima-indians-diabetes.csv' , names=names)
df.head(10)

X = df.values[:,:8]
y = df.values[:,8]

from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

kfold = KFold(n_splits=10)
model = LogisticRegression()
result = cross_val_score(model , X , y , cv=kfold)

最后的result，就是我们每一次模型的得分（准确率）

这里，我们调用KFold，设置K=10，也就是会分割为10分子集，然后去遍历调用模型

这里，我们使用的是逻辑回归模型

2. LeaveOneOut

关于LeaveOneOut，参考：

橘猫吃不胖：sklearn函数：LeaveOneOut（分割训练集和测试集）zhuanlan.zhihu.com

同样使用上面的数据集

from sklearn.model_selection import LeaveOneOut

loocv = LeaveOneOut()
model = LogisticRegression(max_iter=1000)

result = cross_val_score(model , X , y , cv=loocv)
result

result.mean()

这个跑起来的确很慢，一开始结果都是0，1我还以为错了，啥情况，一想，因为留一法，就是遍历N次，每次的结果要么是对的，要么就是不对的，所以，可以看个平均的得分

weixin_39568083

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
sklearn kfold_sklearn函数：cross_val_score（交叉验证评分）

sklearn.model_selection.cross_val_score(estimator,X,y=None,*,groups=None,scoring=None,cv=None,n_jobs=None,verbose=0,fit_params=None,pre_dispatch='2*n_jobs',error_score=nan)前面我们提到了4种分割数据集的方法，在分割完数据集后，我...
复制链接

扫一扫