【机器学习-9】数据集划分

最新推荐文章于 2025-05-07 22:40:54 发布

超华东算法王

最新推荐文章于 2025-05-07 22:40:54 发布

阅读量1.4k

点赞数 30

分类专栏：黄金专栏-小孩ML 文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/m0_69378371/article/details/145568149

版权

黄金专栏-小孩ML 专栏收录该内容

42 篇文章

订阅专栏

数据集划分简介

在机器学习中，数据集划分（Data Split）是指将原始数据集按照一定比例分成不同的子集，以便用于训练、验证和测试模型。数据集划分是模型评估和验证的重要步骤，它帮助我们评估模型的泛化能力，避免过拟合，并确保模型能在未见过的数据上表现良好。

1. 数据集划分的目的

训练集（Training Set）：用于训练模型。模型通过训练集中的数据学习到数据的规律，从而调整其参数。
验证集（Validation Set）：用于调优模型。通过验证集评估模型的性能，并在此过程中调整超参数（例如学习率、正则化系数等）。
测试集（Test Set）：用于评估最终模型的性能。测试集数据不参与训练和调参，它用来测试模型的泛化能力。

2. 常见的划分比例

通常，数据集的划分比例依据具体问题、数据量、模型类型等因素来选择。以下是几种常见的划分比例：

60% / 20% / 20%：60%的数据用于训练，20%的数据用于验证，20%的数据用于测试。
70% / 15% / 15%：70%的数据用于训练，15%的数据用于验证，15%的数据用于测试。
80% / 20%：80%的数据用于训练，20%的数据用于测试。

对于数据量较大的情况，可以选择训练集占大多数，验证集和测试集的比例较小。

3. 数据集划分的方法

(1) 随机划分（Random Split）

最常见的划分方法是随机划分。在这种方法中，数据集被随机地分为训练集、验证集和测试集。每个数据点都有相同的机会进入训练集、验证集或测试集。

优点：

简单且直观，容易实现。

缺点：

可能导致划分后的训练集和测试集分布不一致，导致模型的评估结果不准确。

(2) 留出法（Hold-Out Method）

留出法是一种特殊的随机划分方法，通常用于只有训练集和测试集的情况。将数据集划分为两个部分，一部分用于训练，另一部分用于测试。常见的留出法划分比例是 80% / 20% 或 70% / 30%。

优点：

划分简单，适用于大多数问题。

缺点：

划分结果不稳定，不同的划分可能会对模型性能评估产生不同的影响。

(3) K折交叉验证（K-Fold Cross-Validation）

K折交叉验证是将数据集划分为 K 个子集（通常是 5 或 10 个），然后轮流将其中一个子集作为验证集，剩余的子集作为训练集。每个子集都会被作为一次验证集，最终通过所有验证结果来评估模型的性能。

优点：

有效利用了所有数据，提高了模型的稳定性和泛化能力。
对数据划分的结果不敏感，能更好地评估模型的真实表现。

缺点：

计算开销较大，尤其是在数据量较大时，因为模型需要训练 K 次。

(4) 留一交叉验证（Leave-One-Out Cross-Validation，LOOCV）

留一交叉验证是K折交叉验证的一个极端案例。在留一交叉验证中，K等于数据集的大小。每次选择一个样本作为验证集，剩余的数据作为训练集。这个过程会进行 N 次，每次留出一个样本，直到所有样本都作为验证集进行过评估。

优点：

在样本数较少时能够最大程度地利用数据。

缺点：

对于大数据集来说，计算量非常大，处理速度慢。

(5) 分层抽样（Stratified Sampling）

分层抽样是一种在每个类别中进行划分的方式，特别适用于类别不平衡的数据集。通过确保训练集、验证集和测试集中的各类样本比例与整个数据集一致，保证划分后的数据集在类别分布上具有代表性。

优点：

确保各类样本在训练集、验证集和测试集中的比例一致，避免因类别不平衡导致的模型偏差。

缺点：

比较复杂，可能需要额外的步骤来实现。

4. 为什么数据集划分很重要？

评估模型的泛化能力：通过测试集的结果，我们可以了解模型在没有见过的数据上的表现，进而判断模型是否过拟合。
避免过拟合和欠拟合：适当的划分训练集和测试集，能够有效防止模型过度拟合训练数据，或是学习不到数据的规律。
验证模型选择：验证集用于调参和选择最佳的模型，在选择模型时，我们希望有一个独立的数据集来评估模型。

5. 典型划分方案

(1) 训练集：测试集

适用于模型开发中的常见场景。在数据量较大时，可以使用80% / 20%或70% / 30%的比例进行划分。

(2) K折交叉验证

在数据量相对较少，或需要更精确评估模型表现时，常用K折交叉验证（如K=5或K=10）。

(3) 分层抽样

在类别不平衡的分类问题中，使用分层抽样来确保不同类别的样本分布一致，避免模型训练时对某些类别的偏向。

以下是常见的数据集划分方法及代码实现，主要使用 Python 中的 scikit-learn 库进行数据集划分。

1. 随机划分（Random Split）

代码示例

from sklearn.model_selection import train_test_split

# 假设 X 是特征矩阵，y 是目标变量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练集和测试集划分
print(f"Training set size: {len(X_train)}")
print(f"Test set size: {len(X_test)}")

解释：
使用 train_test_split 函数将数据随机划分为训练集和测试集，test_size=0.2 表示测试集占 20%，训练集占 80%。

2. K折交叉验证（K-Fold Cross-Validation）

代码示例

from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier

# 假设 X 是特征矩阵，y 是目标变量
model = RandomForestClassifier()

# K折交叉验证，K=5
scores = cross_val_score(model, X, y, cv=5)

print(f"Cross-validation scores: {scores}")
print(f"Mean score: {scores.mean()}")

解释：
cross_val_score 会对数据进行 K 折交叉验证，cv=5 表示 K=5，模型会在每个划分上训练和评估，输出每一折的分数。

3. 分层抽样（Stratified Sampling）

代码示例

from sklearn.model_selection import train_test_split

# 假设 X 是特征矩阵，y 是目标变量（分类问题）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 确保各类样本比例相同
print(f"Training set class distribution: {y_train.value_counts()}")
print(f"Test set class distribution: {y_test.value_counts()}")

解释：
stratify=y 确保训练集和测试集中的类分布与原始数据集中的类分布相同，适用于类别不平衡的场景。

4. 留一交叉验证（Leave-One-Out Cross-Validation）

代码示例

from sklearn.model_selection import LeaveOneOut
from sklearn.ensemble import RandomForestClassifier
import numpy as np

# 假设 X 是特征矩阵，y 是目标变量
model = RandomForestClassifier()

# 留一交叉验证
loo = LeaveOneOut()
scores = []

for train_index, test_index in loo.split(X):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    
    model.fit(X_train, y_train)
    scores.append(model.score(X_test, y_test))

print(f"Leave-One-Out cross-validation scores: {np.array(scores)}")
print(f"Mean score: {np.mean(scores)}")

解释：
LeaveOneOut 会在每个样本上进行训练和测试，适用于样本数较少的场景。每次划分出一个样本作为测试集，其他样本作为训练集。

5. 留出法（Hold-Out Method）

代码示例

from sklearn.model_selection import train_test_split

# 假设 X 是特征矩阵，y 是目标变量
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# 留出25%的数据作为测试集
print(f"Training set size: {X_train.shape[0]}")
print(f"Test set size: {X_test.shape[0]}")