交叉验证在sklearn中的实现

最新推荐文章于 2022-02-13 00:45:43 发布

u010779707

最新推荐文章于 2022-02-13 00:45:43 发布

阅读量1.3k

点赞数

分类专栏： Python

Python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

转载出处：http://blog.sina.com.cn/s/blog_7103b28a0102w70h.html

前面已经简单介绍了交叉验证，这次主要说明sklearn中关于CV的相关实现。

先说一个sklearn中的很好用的功能：对一个数据集进行随机划分，分别作为训练集和测试集。使用的是cross_validation.train_test_split函数，使用示例如下：

1 实现CV最简单的方法是cross_validation.cross_val_score函数，该函数接受某个estimator，数据集，对应的类标号，k-fold的数目，返回k-fold个score，对应每次的评价分数。

上图的例子中，最终得到五个准确率。

cross_val_score中的参数cv，既可以给定它一个整数，表示数据集被划分的份数（此时采取的是KFold或者StratifiedKFold策略，后面会说明）；也可以给定它一个CV迭代策略生成器，指定不同的CV方法。例如：

上图中的例子，首先通过cross_validation.ShuffleSplit生成一个CV迭代策略生成器cv，然后将cv以参数的形式传递到cross_val_score中。

除了cross_val_score，sklearn中还提供一个cross_val_predict，它的功能就是返回每条样本作为CV中的测试集时，对应的模型对于该样本的预测结果。这就要求使用的CV策略能保证每一条样本都有机会作为测试数据，否则会报异常。使用示例如下：

2 几种不同的CV策略生成器

前面提到，cross_val_score中的参数cv可以接受不同的CV策略生成器作为参数，以此使用不同的CV算法。这里介绍几种sklearn中的CV策略生成器函数

2.1 K-fold

最基础的CV算法，也是默认采用的CV策略。主要的参数包括两个，一个是样本数目，一个是k-fold要划分的份数。

2.2 Stratified k-fold

与k-fold类似，将数据集划分成k份，不同点在于，划分的k份中，每一份内各个类别数据的比例和原始数据集中各个类别的比例相同。

2.3 Leave-one-out

参数只有一个，即样本数目。

2.4 Leave-P-out

每次从整体样本中去除p条样本作为测试集，如果共有n条样本数据，那么会生成

个训练集/测试集对。和LOO，KFold不同，这种策略中p个样本中会有重叠。

2.5 Leave-one-label-out

这种策略划分样本时，会根据第三方提供的整数型样本类标号进行划分。每次划分数据集时，取出某个属于某个类标号的样本作为测试集，剩余的作为训练集。

2.6 Leave-P-Label-Out

与Leave-One-Label-Out类似，但这种策略每次取p种类标号的数据作为测试集，其余作为训练集。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。