数据集划分方法

最新推荐文章于 2023-10-03 23:15:56 发布

Oath4Love

最新推荐文章于 2023-10-03 23:15:56 发布

阅读量7.4k

点赞数 18

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/Oath4Love/article/details/87933056

版权

本文介绍了机器学习中模型评估的三种常见方法：留出法、交叉验证法和自助法。留出法将数据集划分为训练集和测试集；交叉验证法通过k折交叉验证获取更稳定的评估结果；自助法适用于数据集较小的情况，但会改变数据分布。

摘要由CSDN通过智能技术生成

1 模型评估方法

在现实任务中，往往有很多模型可供选择，一般我们是通过对候选模型的泛化误差进行估计，选择泛化误差最小的那个模型。因此，需要一个“测试集”来检测学习器对新样本的判别能力，然后以测试集上的“测试误差”作为泛化误差的近似，这里我们假设测试集也是从样本真实分布中独立同分布采样得到的。

假设学习任务中的有一个包含 $m$ 个样本的数据集 $D=\{(\textbf{x}_1,y_1),(\textbf{x}_2,y_2),\cdots,(\textbf{x}_m,y_m)\}$ ，我们可以通过适当的处理，从中产生出训练集 $S$ 和测试集 $T$ ，要求 $T$ 与 $S$ 尽可能互斥，即测试样本尽量不在训练集中出现、未在训练过程中使用过。下面介绍几种常见的划分方式。

1.1 留出法

“留出法”直接将数据集 $D$ 划分为两个互斥的集合，一个为训练集 $S$ ，一个为测试集 $T$ ，即 $D=S\cup T,S\cap T=\emptyset.$ 在 $S$ 上进行模型学习，然后用 $T$ 来评估其测试误差，作为对泛化误差的估计。

单次使用留出法得到的估计结果往往不够稳定可靠，在使用留出法时，一般要采用若干次随机划分、重复进行模型评估后取平均值作为留出法的评估结果。

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Mon Feb 25 10:57:29 2019

@author: lihui
"""

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC #导入支持向量机分类算法
from sklearn.metr