几种交叉验证方式比较及应用

最新推荐文章于 2024-05-15 20:55:16 发布

火星的时代6

最新推荐文章于 2024-05-15 20:55:16 发布

阅读量3k

点赞数

分类专栏： python 机器学习

本文链接：https://blog.csdn.net/huoxingdeshidai6/article/details/90375942

版权

本文对比了多种交叉验证方式，包括train_test_split、Standard Cross Validation、Stratified k-fold cross validation、Leave-one-out Cross-validation和Shuffle-split cross-validation。讨论了它们的优缺点和适用场景，强调了交叉验证在提高模型泛化能力和数据使用效率上的作用。同时，介绍了交叉验证中scoring参数的选择，用于评估模型在分类、聚类和回归任务中的性能。

摘要由CSDN通过智能技术生成

模型评价的目的：

通过模型评价，我们知道当前训练模型的好坏，泛化能力如何？从而知道是否可以应用在解决问题上，如果不行，那又是哪里出了问题？

本文涉及（1）交叉验证的方式比较、（2）交叉验证的scoring参数

1、交叉验证方式比较

train_test_split

在分类问题中，我们通常通过对训练集进行train_test_split，划分成train 和test 两部分，其中train用来训练模型，test用来评估模型，模型通过fit方法从train数据集中学习，然后调用score方法在test集上进行评估，打分；从分数上我们可以知道模型当前的训练水平如何。

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

cancer = load_breast_cancer()
X_train,X_test,y_train,y_test = train_test_split(cancer.data,cancer.target,random_state=0)

logreg = LogisticRegression().fit(X_train,y_train)
print("Test set score:{:.2f}".format(logreg.score(X_test,y_test)))

#输出：
#output： Test set score:0.96

然而，这种方式存：只进行了一次划分，数据结果具有偶然性，如果在某次划分中，训练集里全是容易学习的数据，测试集里全是复杂的数据，这样就会导致最终的结果不尽如意；反之，亦是如此。

Standard Cross Validation

针对上面通过train_test_split划分，从而进行模型评估方式存在的弊端，提出Cross Validation 交叉验证。
Cross Validation：简言之，就是进行多次train_test_split划分；每次划分时，在不同的数据集上进行训练、测试评估，从而得出一个评价结果；如果是5折交叉验证，意思就是在原始数据集上，进行5次划分，每次划分进行一次训练、评估，最后得到5次划分后的评估结果，一般在这几次评估结果上取平均得到最后的评分。k-fold cross-validation ，其中，k一般取5或10。

from sklearn.model_selection import cross_val_score

logreg = LogisticRegression()
scores = cross_val_score(logreg,cancer.data, cancer.target) #cv：默认是3折交叉验证，可以修改cv=5，变成5折交叉验证。
print("Cross validation scores:{}".format(scores))
print("Mean cross validation score:{:2f}".format(scores.mean()))

#output:
#Cross validation scores:[0.93684211 0.96842105 0.94179894]
#Mean cross validation score:0.949021

交叉验证的优点：

原始采用的train_test_split方法，数据划分具有偶然性；交叉验证通过多次划分，大大降低了这种由一次随机划分带来的偶然性，同时通过多次划分，多次训练，模型也能遇到各种各样的数据，从而提高其泛化能力；
与原始的train_test_split相比，对数据的使用效率更高。train_test_split，默认训练集、测试集比例为3:1，而对交叉验证来说，如果是5折交叉验证，训练集比测试集为4:1；10折交叉验证训练集比测试集为9:1。数据量越大，模型准确率越高交叉

交叉验证的缺点：

这种简答的交叉验证方式，从上面的图片可以看出来，每次划分时对数据进行均分，设想一下，会不会存在一种情况：数据集有5类，抽取出来的也正好是按照类别划分的5类，也就是说第一折全是0类，第二折全是1类，等等；这样的结果就会导致，模型训练时，没有学习到测试集中数据的特点，从而导致模型得分很低，甚至为0,！为了避免这种情况，又出现了其他的各种交叉验证方式。

Stratified k-fold cross validation

分层交叉验证（Stratified k-fold cross validation）：首先它属于交叉验证类型，分层的意思是说在每一折中都保持着原始数据中各个类别的比例关系，比如说：原始数据有3类

最低0.47元/天解锁文章

火星的时代6

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
几种交叉验证方式比较及应用

模型评价的目的：通过模型评价，我们知道当前训练模型的好坏，泛化能力如何？从而知道是否可以应用在解决问题上，如果不行，那又是哪里出了问题？本文涉及（1）交叉验证的方式比较、（2）交叉验证的scoring参数1、交叉验证方式比较train_test_split在分类问题中，我们通常通过对训练集进行train_test_split，划分成train 和test 两部分，其中tr...
复制链接

扫一扫

专栏目录