如何理解和区分训练集、测试集和验证集

高斯小哥

已于 2024-02-23 10:58:33 修改

阅读量1.3k

点赞数 31

分类专栏： PyTorch零基础入门教程文章标签： python PyTorch 数据集划分数据库深度学习基础

于 2024-02-23 10:35:06 首次发布

本文链接：https://blog.csdn.net/qq_41813454/article/details/136248459

版权

PyTorch零基础入门教程专栏收录该内容

47 篇文章 97 订阅

订阅专栏

本文详细介绍了在机器学习和深度学习中如何通过PyTorch划分训练集、验证集和测试集，以及它们在模型训练过程中的作用。通过实例演示了数据集划分和模型性能评估的方法。

摘要由CSDN通过智能技术生成

如何理解和区分训练集、测试集和验证集

在这里插入图片描述

🌈 个人主页：高斯小哥
🔥 高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】
💡 创作高质量博文，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）

👋大家好，欢迎来到我的博客！在机器学习和深度学习的世界里，数据集被划分为训练集、验证集和测试集是非常重要的。这些集合各自扮演着不同的角色，确保我们的模型能够准确地学习和泛化。今天，我将通过PyTorch的示例代码来详细解释如何理解和区分这三个集合。

关键词：#机器学习 #深度学习 #训练集 #验证集 #测试集 #PyTorch #数据划分 #模型训练与评估

一、概念回顾 🧠

训练集（Training Set）：用于训练模型的数据集。模型通过学习训练集中的数据来拟合数据分布并学习规律。
验证集（Validation Set）：用于验证模型性能的数据集。在模型训练过程中，我们使用验证集来调整模型参数和超参数，以优化模型性能。验证集帮助我们在调整模型时避免过拟合。
测试集（Test Set）：用于评估模型性能的数据集。在模型训练完成后，我们使用测试集来评估模型的泛化能力，即模型在未知数据上的表现。测试集应该是完全独立的，从未参与模型的训练或验证。

二、基于PyTorch划分训练集、验证集、测试集 🔥

在PyTorch中，我们通常使用torch.utils.data.Dataset和torch.utils.data.DataLoader来处理数据集。首先，我们需要创建一个继承自Dataset的自定义数据集类，然后使用DataLoader来加载数据并提供批量处理、打乱等功能。

下面是一个简单的例子，展示了如何创建一个自定义数据集类，并划分为训练集、验证集和测试集。

import torch
from torch.utils.data import Dataset, DataLoader
from sklearn.model_selection import train_test_split

# 假设我们有一个简单的数据集，包含特征和标签
features = torch.randn(1000, 10)  # 1000个样本，每个样本10个特征
labels = torch.randint(0, 2, (1000,))  # 1000个样本的二分类标签

# 划分数据集为训练集和临时集（验证集+测试集）
X_train, X_temp, y_train, y_temp = train_test_split(features, labels, test_size=0.4, random_state=42)

# 进一步划分临时集为验证集和测试集
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# 自定义数据集类
class MyDataset(Dataset):
    def __init__(self, features, labels):
        self.features = features
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        return self.features[idx], self.labels[idx]

# 创建数据集实例
train_dataset = MyDataset(X_train, y_train)
val_dataset = MyDataset(X_val, y_val)
test_dataset = MyDataset(X_test, y_test)

# 创建数据加载器
train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False)
test_loader = DataLoader(test_dataset, batch_size=32, shuffle=False)

三、模型训练与评估 🔥

现在，我们有了训练集、验证集和测试集的数据加载器，接下来是训练模型并使用验证集进行调整，最后使用测试集评估模型的性能。

import torch.nn as nn
import torch.optim as optim

# 定义一个简单的模型
class SimpleModel(nn.Module):
    def __init__(self):
        super(SimpleModel, self).__init__()
        self.fc = nn.Linear(10, 2)

    def forward(self, x):
        return self.fc(x)

# 实例化模型、损失函数和优化器
model = SimpleModel()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 训练模型
num_epochs = 10
for epoch in range(num_epochs):
    model.train()  # 设置模型为训练模式
    train_loss = 0.0

    for inputs, labels in train_loader:
        optimizer.zero_grad()  # 清空梯度
        outputs = model(inputs)  # 前向传播
        loss = criterion(outputs, labels)  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数

        train_loss += loss.item() * inputs.size(0)  # 累加损失

    train_loss /= len(train_loader.dataset)  # 计算平均损失
    print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {train_loss:.4f}")

	# 使用验证集评估模型性能
	model.eval()  # 设置模型为评估模式
	val_loss = 0.0
	val_accuracy = 0.0
	
	with torch.no_grad():  # 不需要计算梯度
	    for inputs, labels in val_loader:
	        outputs = model(inputs)
	        loss = criterion(outputs, labels)
	        val_loss += loss.item() * inputs.size(0)
	
	        # 计算准确率
	        _, predicted = torch.max(outputs, 1)
	        correct = (predicted == labels).sum().item()
	        val_accuracy += correct / inputs.size(0)
	
	val_loss /= len(val_loader.dataset)
	val_accuracy /= len(val_loader)
	
	print(f"Validation Loss: {val_loss:.4f}, Accuracy: {val_accuracy:.4f}")

# 使用测试集评估模型性能
model.eval()  # 保持模型为评估模式
test_loss = 0.0
test_accuracy = 0.0

with torch.no_grad():  # 不需要计算梯度
    for inputs, labels in test_loader:
        outputs = model(inputs)
        loss = criterion(outputs, labels)
        test_loss += loss.item() * inputs.size(0)

        # 计算准确率
        _, predicted = torch.max(outputs, 1)
        correct = (predicted == labels).sum().item()
        test_accuracy += correct / inputs.size(0)

test_loss /= len(test_loader.dataset)
test_accuracy /= len(test_loader)

print(f"Test Loss: {test_loss:.4f}, Accuracy: {test_accuracy:.4f}")

四、总结 🎉

通过上面的代码和解释，我们了解了如何在PyTorch中创建数据集、划分训练集、验证集和测试集，并使用这些集合来训练和评估模型。在实际应用中，通常还需要进行更多的数据预处理步骤，如数据清洗、特征工程等。此外，模型的性能也可以通过其他指标来评估，如精确度、召回率、F1分数等，具体取决于问题的性质和目标。

希望这篇博客能帮助你更好地理解和区分训练集、验证集和测试集，并在实践中应用它们来构建和评估机器学习模型！🚀