[机器学习手机13]scikit-learn几种交叉验证方式

最新推荐文章于 2022-05-08 16:16:14 发布

虾米ning

最新推荐文章于 2022-05-08 16:16:14 发布

阅读量202

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/a_31415926/article/details/50055597

版权

这次需要介绍的是scikit-learn库里面的几种常见的交叉验证方式: 1) LeavePOut, 2) LeaveOneOut, 3) KFold, 4) Stratified KFold
其实归并起来，主要是两种，KFold和LeavePOut

先讲KFold，

sklearn.cross_validation.KFold(n, n_folds=3, shuffle=False, random_state=None)

KFold的意思是，将数据随机切分成K份，其中留一份给验证集，剩下的K-1份给训练集。每次切分都可以创建一个训练集，一个验证集。一共切分K次。

参数: n是总数据量，n_folds是切的分数。shuffle是指每次随机切的时候，数据本身是不是也要重排序以下(就像我随机抽扑克牌的时候，抽牌是随机的，但是在抽的时候还要不要进行洗牌这个操作)，而random_state就是洗牌的随机方式的选择。

举个栗子

import sklearn.cross_validation as cross_valid
kf=cross_valid.KFold(6,3)     #数据量是6个，一共切3份。
for train_index, test_index in kf:
    print train_index,test_index

输出结果

[2 3 4 5] [0 1]
[0 1 4 5] [2 3]
[0 1 2 3] [4 5] #可以看到KFold切分了三次，其实按照KFold随机切分的方法，他可以切出超出K种的数据集，但是KFol

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

虾米ning

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Scikit-Learn机器学习之k折交叉验证

codeman的博客

05-02

316

K折交叉验证 1、什么叫K折交叉验证？本例主要讲4折 2、如果不交叉验证 import numpy as np import matplotlib.pyplot as plt from sklearn import datasets from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score #load the classifying models from sklea

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow第2版》-学习笔记（4）：训练模型

Morganfs的博客

04-16

1599

第四章训练模型 · Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, by Aurélien Géron (O’Reilly). Copyright 2019 Aurélien Géron, 978-1-492-03264-9. · 环境：Anaconda（Python 3.8） + Pycharm · 学习时间：2022.04.16~2022.04.？到目前为止，我们已经探讨了不同机器学

参与评论您还未登录，请先登录后发表或查看评论

Scikit-Learn实战之——交叉验证

学习AI算法，请关注微信公众号：机器学习算法全栈工程师……

10-04

2779

本文将从以下几个方面进行介绍：简单地讲训练集/测试集分割进行模型验证的缺点； K折交叉验证的做法和优点； 交叉验证如何用于选择调节参数、选择模型、选择特征；对交叉验证进行升级。 1. 为什么要进行模型验证　　众所周知，在机器学习与数据挖掘中进行模型验证的一个重要目的是要选出一个最合适的模型。对于有监督学习而言，我们希望模型对于未知数据具有很强的泛化能力，所以就需要模型验证这一过程来评估不同的模型

scikit learning——交叉验证

panghaomingme的博客

11-09

516

import numpy as np from sklearn import datasets from sklearn.cross_validation import train_test_split from sklearn.neighbors import KNeighborsClassifier iris = datasets.load_iris() iris_X =iris.data i

scikit-learn一般实例之一:绘制交叉验证预测

weixin_34358092的博客

01-08

341

本实例展示怎样使用cross_val_predict来可视化预测错误: # coding:utf-8 from pylab import * from sklearn import datasets from sklearn.model_selection import cross_val_predict from sklearn import linear_model lr = linea...

sklearn中的交叉验证（Cross-Validation）

热门推荐

Great haste makes great waste

05-14

13万+

这个repo 用来记录一些python技巧、书籍、学习链接等，欢迎star github地址 sklearn是利用python进行机器学习中一个非常全面和好用的第三方库，用过的都说好。今天主要记录一下sklearn中关于交叉验证的各种用法，主要是对sklearn官方文档 Cross-validation: evaluating estimator performance进行讲解，英文水平好...

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow第2版》-学习笔记（8）：降维

Morganfs的博客

05-08

1329

· Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, by Aurélien Géron (O’Reilly). Copyright 2019 Aurélien Géron, 978-1-492-03264-9. · 《机器学习》周志华 · 环境：Anaconda（Python 3.8） + Pycharm · 学习时间：2022.05.07~2022.05.08 第八章降维许多机器学习问.

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow第2版》-学习笔记（7）：集成学习和随机森林

Morganfs的博客

05-05

1441

· Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition, by Aurélien Géron (O’Reilly). Copyright 2019 Aurélien Géron, 978-1-492-03264-9. · 《机器学习》周志华 · 环境：Anaconda（Python 3.8） + Pycharm · 学习时间：2022.05.05~2022.05.05 第六章集成学习和随机森林 .

机器学习实战（基于Scikit-Learn和TensorFlow）（Ⅱ）

qq_44709990的博客

02-14

1815

机器学习实战（基于Scikit-Learn和TensorFlow）（Ⅱ）本文参考书籍：《机器学习实战（基于Scikit-Learn和TensorFlow）》目录机器学习实战（基于Scikit-Learn和TensorFlow）（Ⅱ）5.支持向量机线性SVM分类软间隔分类非线性SVM分类多项式核添加相似特征高斯RBF核函数计算复杂度SVM回归工作原理决策函数和预测训练目标二次规划对偶问题核化SVM在线SVM6.决策树 5.支持向量机 SVM能执行线性或非线性分类、回归，或异常值检测任务。SVM特

Scikit-learn中的K折叠交叉验证（Cross Validation）

m0_37520426的博客

07-21

2825

我们为什么要使用交叉验证法?　　当我们使用train_test_split方法进行数据集的拆分时，train_test_split用的是随机拆分的方法,万一我们拆分的时候，测试集中都是比较容易进行分类或者回归的数据,而训练集中都比较难，那么模型的得分就会偏高，反之模型的得分就会偏低。我们也不太可能把所有的random_state遍历一遍，而交叉验证法正好弥补了这个缺陷，它的工作原...

《scikit-learn》交叉验证

qq_29367075的博客

01-30

615

当我们训练模型的时候，首先得要有数据进行训练。我们拥有一定的数据集的时候，我们不会用所有数据去训练，因为这样我们会不知道训练出的模型的繁华能力如何，而是习惯于划分为训练数据集和测试数据集，在训练集上训练处模型，拿到测试集去做测试。而这种方式也不一定是最好的，因为，这种方式选择数据集是随机的，也许我们调的参数只是该训练集下是最优的，或许只是在特定的训练集和测试集是最有的，换了个样本集，或者是划分出的训练集就不是。为了避免这种因样本选择带来的随机性影响，我们需要额外设置一个验证集，当模型训练完成以后，先在

【scikit-learn】交叉验证及其用于参数选择、模型选择、特征选择的例子

Jason Ding的专栏

01-22

6万+

内容概要¶ 训练集/测试集分割用于模型验证的缺点K折交叉验证是如何克服之前的不足交叉验证如何用于选择调节参数、选择模型、选择特征改善交叉验证 1. 模型验证回顾¶ 进行模型验证的一个重要目的是要选出一个最合适的模型，对于监督学习而言，我们希望模型对于未知数据的泛化能力强，所以就需要模型验证这一过程来体现不同的模型对于未知数据的表现效果。最先我们用训练准确度（用

python机器学习库sklearn——交叉验证（K折、留一、留p、随机）

weixin_43758551的博客

06-02

6241

https://blog.csdn.net/luanpeng825485697/article/details/79836262 学习预测函数的参数，并在相同数据集上进行测试是一种错误的做法: 一个仅给出测试用例标签的模型将会获得极高的分数，但对于尚未出现过的数据它则无法预测出任何有用的信息。这种情况称为 overfitting（过拟合）. 为了避免这种情况，在进行（监督）机器学习实验时，通常取...

【scikit-learn】05：交叉验证 Cross-validation

墨竹

03-17

2953

【scikit-learn】06：交叉验证 Cross-validationAuthor：kevinelstri DateTime：2017/3/17 交叉验证(Cross Validation) 交叉验证也称为CV。CV是用来验证分类器的性能一种统计分析方法，基本思想就是对原始数据(dataset)进行分组，一部分做为训练集(train set)，另一部分做为验证集(validatio

sklearn-交叉验证

Forlogenの解忧杂货铺

12-23

4855

交叉验证：评估模型的表现如果我们训练出的模型只在训练集上表现极好，但在未知的数据上效果很差，说明出现了过拟合，为了避免这种现象的出现，我们需要验证集来评估我们的模型。当我们在训练集上训练好一个模型后，现在验证集上对模型进行，如果验证集上的效果比较好时，再到测试集上就行最后的评估。但是单纯的将数据集分为三部分，会大大减少模型学习的数据量（因为有时数据是很难获取的，数目可能会比较少），并且最后模型...

scikit-learn实现|交叉验证 cross-validation 详解（5-Folds为例）| 分层采样

用途：中英文学习笔记，如有侵权，可评论留言，及时清理；学历：NUS计算机硕士；SYSU地球物理学士

04-01

2万+

一般来说，验证集越大，我们对模型质量的度量中的随机性（也称为“噪声”）就越小，它就越可靠。但是，通常我们只能通过划分出更多训练数据来获得一个大的验证集，而较小的训练数据集意味着更糟糕的模型！而交叉验证可是用来解决这个问题。什么是交叉验证？在交叉验证中，我们将数据集等量划分成几个小的子集，然后对不同的子集运行建模过程，以获得每个子集模型的拟合效果的指标（可用MAE 平均绝对误差表示）。我们...

scikit-learn 交叉验证绘图及原理实践

斯温的博客

07-16

2943

交叉验证返回的是平均均方误或平均判定正确率。 from sklearn import datasets from sklearn.cross_validation import cross_val_predict from sklearn import linear_model import matplotlib.pyplot as plt lr = linear_mod

scikit-learn学习3.1.交叉验证:评估估计器性能

laolu1573的专栏

04-15

8370

在一个数据集上学习预测函数的参数并且在相同的数据集上测试是一种错误的方法：因为一个模型仅仅重复了刚刚训练过的样本的标签，这种情况下得分会很高，但是遇到没有训练过的样本就无法预测了。这种情况叫做过拟合。为了避免过拟合，一个常见的做法就是在进行一个（有监督的）机器学习实验时，保留一部分样本作为测试集（X_test, y_test）。需要注意的是，“实验”这个词并不是为了表示只是学术上使用，即使是商用场

实战Scikit-Learn与TensorFlow机器学习

《手把手教你用Scikit-Learn和TensorFlow进行机器学习》是一本由Aurélien Géron撰写的实践导向教程，专注于在实际场景中运用Scikit-Learn和TensorFlow这两种流行的机器学习工具。这本书旨在帮助读者理解并掌握概念...